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前 言 

要广泛深入地学习当今统计计算和计算统计学，所需了解的大多数内容本书均 
有涉及.我们力求让读者理解现有方法的机理,使读者能够有效地使用这些现代统 
计 方法. 由于许多新方法都是从现有的技术构建出来的，故我们的最终目的是向科 
学工作者提供必要的工具，帮助他们为此领域贡献新的思想. 

想要达到这些目的，就必须精通统计计算、计算统计、计算机科学和数值分析 
等各方面内容.我们选取了那些我们认为是本领域中心的内容，也会是读者感兴趣 
和认为有用的内容.另外，我们从注重实效的角度优先考虑了使学生和研究者受益 
最多、收效最快的内容. 

考虑到出现了一些高质量的软件，我们省略了本领域过往以来的某些重要的研 
究内容.例如，伪随机数的产生是一个经典的课题，但我们更倾向于让学生使用可 
靠的软件来解决问题.还有一些内容如数值线性代数，属于讲与不讲两可.这些内 
容对于很多应用来说是很关键的，但是通常都有不错的计算机软件可用.按我们的 
判断,人们不会经常抛开程序而去探究数值线性代数的细节，因而（刚好）不足以让 
我们把这些内容写到书里.这些经典内容我们只写了优化和数值积分，这么做的原 
因 是：⑴ 二者是频率学派和 Bayes 推断的 基石; （ii) 现有软件程序往往不能应付此 


'字眼，可能面临如下矛盾，其实这本书不可能囊括 
上,我们也从未打算这么做.有些领域实在变化得太 
我们只是努力提供这些领域主要内容的近期概况， 





























































第 1 章回 顾 

本章将回顾一些有关数学、概率和统计中的记号和背景资料.读者可以跳过本 
章直接阅读第2章. 


1.1 某些数学记号 

为与一个常变量 rr 或常数 M 相区别，我们用黑体表示向量 * = ® p ) 

或矩阵 M •在点 * 取值的向量函数也是黑体，即 /(*) = (/!(*),•••，/ p ⑻).以 
M T 表示矩阵 M 的转置. 

除非特别指出，所有向量均为列向量.因此,一个 n x p 阶矩阵可以写成 M = 
(*!,••■ 以 J 表示单位矩阵,1和0分别表示1和0的向量. 

如果对所有非零向置*， * T M*>0, 则称对称方阵 M 正定.正定的等价条件 
是其所有的特征根 为正. 如果对所有非零向量*，则称 M 非负定或半 
正定. 

记函数/在点: r 的导数为 f \ x ). 当 * = 时，函数/在 a: 点的梯 

度为 /'(*)= (#，…， 赞). 函数/在 * 点的 Hessian 叛阵记为 /"(*), 其第 
( i , j ) 元素为 ggf. 负的 Hessian 阵在统计推断中具有重要的应用. 

以 J(x) 表示一对一映射》= /(*) 在点 * 处的 Jacobian 矩阵，其第 {i，j) 元 
素为 d 臀 

-个泛函就是一个函数空间中的实值 函数. 例如，如果 T(/) = //⑻如，则 
泛函 r 为可积函数到一维实数的映射. 

示性函数 i M} 等于1 ,如果4成立,否则就等于 o. —维实空间记为 w, P 维 
实空间记为财. 


1.2 Taylor 定理和数学极限理论 

为了描述函数收敛的相对阶数，我们首先定义记号 O 与 a 设 /， S 为两个定 
义在同一区间（区间可能无限）上的函数，20为此区间内或边界上一点（即 _oo 或 
OO ). 我们要求函数9⑷# 0 ,其中在卻的一个邻域内 ZJ (: Z 0 . 如果存在一个常数 




/(z) = 0{ g ( z )). (1_1) 

例如，当 n — oo 时，靜 = 0(n- x ). 如果 ] xmf ( z )/ g ( z ) = 0, 则称 

f ( z ) = o ( g ( z )). (1-2) 

例如，如果 / 在卻点可微，则当/I — 0时，/㈨+ A) - /(* 0 ) = hf { Xo ) + 0(/!). 如 
取 /(„) = ar„， 则关于序列 { x n } 的收敛性，同样有上述记号. 

Tkylor 定理给出了一个函数/的多项式近似.设/在区间 （a,{») 上具有有限 
的 （TI+ 1) 阶导数，在区间[«»，6]上有连续的 n 阶 导数. 则对于任意一个不同于 z 的 
x 0 €[a,b] ，函数/在点狗的 Taylor 级数展开为 

/⑷= g ^/ (<) (*o)(x-Xor+fln, (1.3) 

其中 /W(*o) 为函数/在点 ar 0 处的 i 阶导数，且 

Rn= xo) n+ \ (1.4) 

其中？ 在由: r 与; r 0 构成的区 间内. 注意到当 |：r-* 0 | — 0时，瓜= O(|a;-*o| n+1 ). 

多元的 Taylor 定理与之类似.设/为一关于 a; 的 p 元实值函数,它在包含 ar 
和 * 的一个开的凸集中具有 n+1 阶连续偏导数.则 


其中 



(1.5) 


㈣ 卜 .名 娜=*垣4 (1 . 6 ) 



限差分法仍可用来近似函数/在 * 处的二阶导数，即 

(/(* + uet + ejBj) - /(* + €*Ci - c,e,) 

-/(* - c 4 Ci + Cjej) + /(* - e<c< - e^e,)) , (1.11) 

它仍可用类似的 q 序列来改进近似賴度 • 

1.3 某些统计记号和概率分布 

我们用大写字母表示随机变量， 如 Y 或X; 用小写字母表示随机变量的取值， 
如 y 或 x . 记/和 F 分别为X的概率密度函数和累积分布 函数. 我们以记号 
X~f(x) 衰示X 服从密度为 /(z) 的分布.一般地,以一条竖线，如/㈤免用表示 
密度函数 /(a;) 依赖于一个或多个参数.由于本书内容较多，故应注意到/问《)也 
表示此密度函数在: r 处的取值.当所用记号的含义清楚时，我们则不加以区别，如 
/(•|«)就表示此函数.当有多个随机变量的密度需要加以区别时，可加下标以示区 









的期望.当 y 未知时, E{X\Y} 是依赖于 y 的随机变量.关于和 y 的其他分布 
特征有 w{A7，co V {U}，co r {X，y} 和 cv{A-}= var{A'} 1 / 2 /E{X} ) 它们分别表示 
X 的方差、X和 F 的协方差和X的变异系数 • 

Jensen 不等式是关于期望的一个有用结果.设 9 在某可能无限的开区间 J 内 
是凸函数，则对于所有的 : / 和 0<A<1, 有 

!7(A® + (1 - A) V ) 《 Xg(x) + (1- A) S (»). (1.12) 

Jensen 不等式指出，如果随机变量久满足 P[X e /] = 1,则 E{ ff (X)} ff(E{X}). 
表 1 . 1 , 表 1.2 和表 1.3 给出了本书中用到的多个离散和连续随机变量的相关 


表 1.1 某些常用离散随机变置槪率分布的记号和推述 


名称 记号和参败空间 

密度和样本空 N 

均值与方差 

Bernoulli AT 〜 B(p) 

0 在 p<l 

/(*)=p-(l- P )»-> 
z = 0 或 1 

E{X>=P 
var{X} = p(l - p) 

-9 B(»,p) 

0<p<l,n=l,2,-. 

/(*) * ( " ) P*(! -P)"" - 
* = 0,1，…， n 

EW = np 

var{X} = np(l-p) 

多项 X 〜 MB(n,p) 

P= (Pi. ••- .Pfc). 

Ef_iP<»l,n=l,2,- 

* = (*i, ••- ,x fc ) f *« -0,1, ••- ,i» 

E{X} = np 

varXi = np<(l - 外） 

cov{Xi ， Xj} = -npiPj 

负二项 X~NB(r,p) 

0<p<l,r = l,2, … 

^ = (*rl7 1 ) pr(1 ~ P)B 
* = 0,1, ••- 

EW = r(l-p)/p 

var{X> = r(l -p)/p 3 

Polaaon X~ P(A) 

/(*) = e^K _A } 

i = 0,1,2, … 

= A 


n!=n(n-l)(n-2) ••-⑶⑵⑴，（注意0! = 1)， (1.13) 

(t)=ifc!(^lfc)!' (1U) 

U 二) = !1^ 其中 " = _ 

(卜机 如果 r = l，2, …， 

一 i JT* r_lex p{-*} 机 如果 r>0. ' 

注意到 r(i/2) = ^, 且对于任意的正整数 r(»+i) = M 3x5 . x "j^ 2 ，: 


























它也可用来处理各种优化问题.偏似然是由全似然求取部分参数约束下的极大值而 
得到的，即，如果0 = M ), 则关于沴的偏似然为 

= maxL(#*,^). (1.29) 

这样，对于每一个也选取使 LM) 极大化，而 ；t 的最优值正是必的函数•于 
是，偏似然是4的函数,而此函 数将少 映射到在0及其相对应的最优处的全似 
然的值.注意到极大化偏似然 LWIA (利）的多就是由极大化全似然 L ^<!>) 得到 
的沴的 MLE. 有关偏似然的方法请见 [21J. 

1.5 Bayes 推断 

在 Bayes 推断中，由于参数被看作随机变量,故概率分布也与似然的参数有关. 
在参数空间中用来定义参数的主观相对概率的概率分布反映了人们对参数不确定 
性的认知. 

假设X的分布包含参数庆以/(0)表示观测数据前关于0的密度，则称其为 
先轮 分布. 它可能基于以前的数据或分析（初步研究）得到,也可能反代表纯粹的个 
人主观信息,或只是想选取一个对最终推断影响有限的分布. 

在本书中，我们以 L(0\x ) 表示导出 Bayes 推断的似然.当有了 0的先验分布 
和用来提供有关0信息的观测数据后,人们的先验信息必须进行更新，以反映包含 
在似然中关于0的信息，其更新机制即为 Bayes 定理： 

f{fi\x) = cfm_ = cf(e)L(e\x), (1.30) 

其中称/(0|*)为0的后验密皮，而0的后验分布常用来做关于 e 的统计推断.上 
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(1.33) 



㈣ {-!( 卜替|) 2 /(击)}， _) 

其中 S 为样本均值.注意到 (1.35) 仍具有正态分布的形式，故我们有 /(^|x) = 
iV(wr2)， 其中 

d = (L36) 

知 O 尝 ) 4 ( i37 ) 

于是, (9 的95%的后验可信区间为（如_ 1.96T n)/in + 1.96 th). 由于正态分布是对 
称的,故它也是0的后验95%的 HPD. 

对于固定的 <7, 下面考虑增大 t 的值.当 r 2 — 00 时，61的后验方差收敛于 
<T 3 /n. 这就是说，当先验方差增大时，先验对后验的影响在逐步消失.另外,注意到 
n lim ^ = 1. 此式说明，当样本容量增加时,0的后验方差与 MLE0 = X 的抽样 
渐近相等，即此时 r 的影响被消除. 

作为共扼先验的替补,我们考虑非规范先验 m<xl. 此时，/⑼ x)=JV(2，<r 2 /n)， 
且95%的后验可信区间就是由频率方法得到的标准的95%的置信区间. 口 

1.6 统计极限理论 

尽管本书最关心的是对各种方法如何工作及是否有效的验证，但有时更精确地 




或强相合估计,如果 r „ 分别依概率或几乎处处收敛到 0 . 如果 E { r n } = e , 则称： r „ 
是无偏的，否则其偏差为 E { T n }-0. 如果当《 — oo 时，其偏差趋于0,则它是渐近 


无偏的. 

下面给出中心极限定理的简单 形式. 假设独立同分布随机变量列 x ir --, x n 
具有均值和有限方差 C 2 , 且 EtexjKtXi }} 在* = 0的一个临域内存在•则当 
,随机变量 r „ = 柳 n - Aj 。 依分布收敛到标准正态随机变量•中心 
勺形式多种多样.一般来讲,方差有限的条件很关键,而独立同分布的条 
胄况下可以放松. 


1 — oo 时， K 
极限定理的开 
件在某些情» 


1.7 马氏链 

本节我们将简单介绍一下单变量的离散时间及离散状态空间的马氏链.第 7 , 
8章将用到马 氏链. 有关马氏链的较详细介绍可参见 [467], 更高层次的研究请见 
[393, 460]. 

考虑一随机变量列 { X(*)}，t = 0， l ，. ., 其中每一个又⑴均可能取有限或可列 
个数值中的一个.称这些值为状态.记号 X (t) = j 意味着此过程在 f 时刻处于状态 
J . 称随机变量的所有可能取值的集合 S 为状态空间. 

从概率角度完全刻画的是作为随机变童历史值的条件分布之 
积的联合分布，即 


中⑼，… ，； C ( n >]=/>| x ( n V 0 )，."xP[A：("- 1 )|a:( 0 )， … ，: r<"- 2 )] 

⑴ I 叫中 ⑼]. (1.38) 

在独立性假设 

P [ xWlxW ,...=P [ X ^ la :^- 1 )] (1-39) 

下， (1.38) 式可被简化.此时，观测到的下一个状态仅依赖于当前状态,这就是马氏 
性，有时也称为一步记忆.在这种情况下，我们有 


P [ X ( 0 )， …, A ■(叫 = P [ X (， (一 ”] x P [ X ( n -”| a :( n - 2 )] 

x -xP [X ⑴ | af <°5] P [ X (0) ] • (1.40) 





为从 t 时刻状态 i 转移到* +1时刻状态 j 的概率.如果对所有的 

和 a : ⑼⑴，…& 有 


p\f = P [X^ = j\X^ = x( 0 )，X ⑴ =a; ⑴，…， A ■⑷ =i] 

= p^(«+i) =J -| A -(t) = i ] > (1.41) 

{XW},* = 0,1, • 是一条马氏链,且称必为一步转移概率.如果一步转 
fit 改变,则称此链为时间齐性的，且# =Pu . 如果每个一步转移概率 
t 在变化，则称此链为时间非齐性的. 

士氏链的性质由其转移概率阵所决定.不失一般性，假设状态空间 <S 中的 
取整数，则以 p 记一个时间齐性马氏链的 s x s 的转移概率阵，其⑷ j) 
元为 Pii . p 中的每个元素都必须介于0和1之间,且每行之和等于 1. 

例 1.3 (旧金山气候）我们考虎旧金山的日降雨量.表 1.4 给出了 1 814对相 
继两天的降雨结果（见 [417]), 这些数据取自每年的11月到次年3月的测量结果， 
11月开始到2002年3月结束.旧金山在这些月份中的降雨童占据了 
我们把每天考虑成两种 情形： 如果记录到一天的降雨量多于 0.01 英 
则称之为 有雨； 否则就称为无雨.于是， S 有两个 元素： 有雨与无雨.以随机变 
表示第 t 天的状态. 

表 1.4 例 1.3 中旧金山的降雨败据 


假设时间齐性的条件下， A： ⑴的转移概率阵的估计值为 


[ 0.620 0.380 1 
[ 0.224 0.775 J • 
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称一条马氏链是周期的，如果经过某些周期性步长后可能达到状态空间的某部分. 

称状态 j 具有周期 d， 如果由状态 ：；• 经非 d 整数倍步到达:/的概率为 0. 如果一条 

马氏链的每一个状态的周期都为1，则称此链为非用期的.如果一条马氏链是不可 

约、非周期，且其所有状态都是非零常返的，则称之为遍历的. 

令 7T 表示和为1的概率向量，且其第 i 个元素 TTi 表示叉⑴= i 的边际概率， 
则的边际概率分布为 7T T P. 任一离散概率分布 7T ， 若它满足 7T T P = 7T T , 
则称之为 P 或转移概率阵为 P 的马氏链的平穂分布.如果服从一平稳分布， 
则和的边际分布相同. 

如果一条时间齐性的马氏链满足 

TTiPij = irjPih Vi,je5, (1.43) 

则 7T 是此链的平稳分布，且称此链为可逆的.其原 因为： 此链的正向或反向观测值 
序列的联合分布是相同的.方程 (1.43) 也称为鮰致平衡 (detailed balance). 

如果一个转移概率阵为 P， 平稳分布为 tt 的马氏链是不可约的且非周期的，则 
7T 唯一,且满足 

[叉(*+") = ■⑷= <] = (1.44) 

其中巧是 7T 的第 J 个元素，且满足如下方程组： 

ifj = 1,且 d ^ 霄 Wij , V j € 5. (1.45) 

我们重述和推广 (1.44) 式 如下： 如果 - 是一不可约、非周期的平 
稳分布为 7T 的马氏链值，则依分布收敛到分布为 7T 的随机变量，且对任一函 
数/!，当 E W {|A(X)|} 存在，且 n - 00时，以概率1有 ([510]) 

(1-46) 

这就是作为强大数定律推广形式的遍历定理. 

本节仅考虑了离散状态空间的马氏链.我们将在第7, 8章把上述思想推广到 
连续状态空间的情形.对于连续状态空间和多元随机变量的原理和结果都与本章 
讨论的类似 • 


1.8 计 算 


如果你不熟悉计算机编程或希望学习一种新语言，则最好立刻去学. S-PIus 是 
学习或教授统计计算的首选语言，但我们尽量避免在本书内容中指定某种语言 .R 














优化与求解非线性方程组 


t •推断的核心.学习 MLE 的理论表现和其解析形式的导出 
然而，当面临没有解析形式的复杂似然时，多数人仍不知 


求解函数咖）= logx/(l + x) 的最大值时，可能会导致1 + 1/* - log* = 0没有代 
数解析解的值局.实际上,包括似然等统计中许多常用方法都可能无法得到解析解， 
于是,一个较现实方法就是减少对解析最优解的依赖. 

除极大似然外，统计学家也面临着其他的优化问题.例如，在 Bayes 决策问题 
中的最小风险、非线性最小二乘问题的求解、多个分布的最高后验密度区间的求取 
以及其他一些包含最优化的问题等.上述问题的求解都厲于如下的一般问题：一个 
实值函数5关于其 P 维自变量 z 的最优化.本章将仅限于考虑 g ^ x 为光滑且 
可微的情形.第3章将考虑 9 在离散区域上的优化问題.由于最大化一个函数等价 
于其负值的最小化，故区别最大与最小的意义不大.于是作为惯例，我们一般将考 
虑求取最大值的算法. 

对于极大似然估计，5是对数似然函数/, * 对应着参数向童0.如果 d 是 MLE, 
则它最大化其对数似然 ，即会 是得分方程 

1，(灼=0 (2.1) 

的解，其中 i'W = (¥，. . •， ®) T ,o 是元素为0的列向量. 

我们即可看出，优化问题与求解非线性方程组密切相联.于是，重新理解本章 
内容为方程组求解比理解为求解优化问题更合理，如求取 MLE 就相当于求解得 
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很好解决的优化问题.例如，虽然均匀随机数在统计计算中具有很重要的作用，但 
由于它很容易由高级软件程序求得，故本书将不再讲述它的产生问题.那什么样的 
优化问题被认为是与众不同的？时刻都需要优化软件处理一个新的优化函数的问 
题就是与众不同的.如对于一些较难处理的似然，即使最好的优化软件也经常无法 
直接应用，而要略作修改才可以求解.因此，用户必须充分理解优化如何进行才能 
顺利地解决此类问题. 

我们先研究单变童的优化问题 . 2.2 节将其推广到多变量问题.第3章将介绍 
离散空间上的优化问题,而第4章将涉及缺失数据的特殊情况. 

关于优化方法的相关参考文献包括 [173, 217,133, 405, 415, 422]. 


2.1 单变量问题 

本节将要讨论的一个简单单变量数值优化问题就是求取函数 

= ^ (2.2) 

关于: r 的最大值.由于不存在解析解，故我们借助于迭代方法以求得其近似解.由 
图 2.1 给出的〆 a:) 的图像可以看出其最大值点在3附近.于是，我们有理由选取 
arW = 3.0 作为迭代的初值.如当前值为0^(« = 0，1，2,…）时，则由更新方程可得 
到一个更新# +1 ),直至迭代结束.此时的更新可由求方程 g f (x) = 的 

根得到，也可由其他合理的方法得到. 



图 2.1 咖）=的最大值点为» 3.591 12,由图中竖直虚线表示 
下面以二分法 (bisection method) 为例来说明迭代求根过程.如果在区间 
[«o,6o] 上连续，且 ^(00^(60) < 0,则由中值定理 （[473]) 知，至少存在一个 x* e 
[a 0 ,i>o ], 使得= 0,即 a; •是 g 的局部最优值 • 为求得最优解，把区间 [oo, M 缩 
短至 [Oi,5l], 再到区间[02，&2]等等，其中 [ oOi ^ d ] 3 [®1,&2] 3 [02,62] 〕 

设 orW =(00 + 6o)/2 为初值，则更新方程为 














〆(》 ㈣ ) 2 < 0. 于是， /(* ㈣)必等于 0. 这就是说 x ㈣是 g 的一个根.换句话说， 
二分法能从理论上保证其收敛到 [a 0 M 内的一个根. 

事实上,计算机在数字上的不精确性可能影响算法的收敛性.对于多数迭代近 
似方法，一种安全做法就是每次均对前面近似结果做一小的修正，而不是重新开始 
一个新的 近似. 如果我们不用 ot +1 = (o* + 6纟 )/2 而用 a* + i = a t + (b t - at)/2 来计 
算区间中点，则二分法的数字计算更稳定.然而，出于各种各样的原因,一个精心编 
写的算法或比二分法更复杂的优化程序也可能失败.另外，值得注意的是,有多种 
病态情形使得 MLE 不是得分方程的解或者 MLE 不是唯一的（例如见 [109]). 

对于这些非正常情形，给出一个标记不收敛的停止准则是重要的.此时一个简 
单的做法就是不论收敛与否, W 步迭代后停止运算.而一个聪明做法是考虑一个或 
多个收敛度童，比如 \x^-x^\m lo^+D-zWI/la^l 或 W t+1 ))|. 如果每 
—个都不单减或若干次迭代后出现了周期，则迭代停止.有时解本身也可能出现不 
令人满意的周期性.此时,如果算法得到的收敛点明显不如我们已经知道的另一个 
好，则明智的做法是停止迭代.这样将避免找到的结果是一个已经知道的假的峰值 
或局部最大值.不管应用哪个停止准则，收敛较差就意味着必须扔掉 x^ 1 ) 且在某 
种意义上必须重新开始以便更可能成功收敛. 

开始如停止一样重要.一般地，一个差的初值可能导致算法发散、周期性、误 
入歧途的局部最大或最小以及其他问题.这些结果均依赖于函数&初值和所用的 







优化 算法. 一般地，只要 S 在包含 a：W 和: c* 的临域内不垂直于 ar, 则选取初值接 
近整体最优值是有帮助的 • 产生合理初值的方法有图示法、初估计（如矩 估计) 、有 
根据的推测和反复试错法等.如果计算机运行速度限制你所能承担得起的迭代次 
数，则聪明的做法是不要把所有的运算资源都用到此优化算法的长时间运行上.应 
用多个初值进行运算是一个获得可信运行结果的有效方法且能避免得到局部最优 
和运算发散. 

当一种方法由一组长度单减的且根在其中的相互嵌套的区间组成时，就称其 
为括入根法 (bracketing method), 二分法即属于这种 方法. 二分法的收敛速度很 
慢，即相对于后面讨论的其他方法而言，为达到要求的精度，它需要更多次的迭 

代. 其他的括入根法还有正割括入根法 (secant bracket, 见 [534]), Illinois 方法（见 

[305])、 Ridder 方法（见 [454]) 和一种速度很快的 Brent 方法（见 [62]), 其中正割括 

入根法在运算初期很有效，但随后速度将会很慢. 

括入根法除了收敛速度相对慢些外，它比本章后面介绍的其他方法具有明显的 
优势.如果〆在区间 [ao,6o] 上连续，则不论〆'是否存在或是否容易导出，其根都 
可以由括入根法找到 • 因为它们不必考虑 5 "，故相对其他强烈依赖 g 的光滑性的 
方法,括入根法有合理的一面. 

2.1.1 Newton 法 

Newton 法是一种快速求根的方法，有时也称之为 Newton-Raphson 迭代(特别 
是在单变置情形)•假设〆是连续可微的且〆'(*•) # 0.在第 t 次迭代,此方法通过 
线性 Taylor 级数展开 

0 = ^(x*) « ^(x w ) + (x* - s(*))p"(a：W) (2.8) 

来近似 ffV). 

因为〆可由 在点： c(*) 的切线值近似,故用此切线的根来近似〆的根看来是合 
理的.于是，解上述关于 z* 的方程，我们有 

= + (2.9) 

此方程告诉我们，对 a:* 的近似依赖于当前的估计值: c(0 和一个修正重复此 
过程，则 Newton 法的更新方程为 

:㈣ =*(*) + #)， (2.10) 

其中矽 ） = W*))W*>). 如用二次 Taylor 级数咖⑷）+ (*， - #)〆(〆*)) + 
(**- * W ) W*))/2 来近似 g(x^), 则可得到类似的更新方程.当关于 5 的优化对 
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应着 MLE 问题且卢是 Z' ⑼= 0的根时， Newton 法的更新方程为 

( 2 . U ) 

例 2.2 (—个简单的单变 蛋优化 ，续）图 2.3 给出了利用 Newton 法求简单函 
数 (2.2) 最值的前几次迭代. 



图 2.3 例 2.2 中 Newton 法的 图示. 第一步， Newton 法用在 ar w) 点的切线值近似〆，并用 
其切线的根；近似真实的根第二步类似地 得到: t< 2 >. 它己经很接近: c •了 


此问题的 Newton 增量为 

⑷一 Qc ⑷ + l)(l + l/g ⑴ -loga; ⑷） 

一 3 + 4/*(«) + 1 /(*<*) ) 2 -2 log®(*)' 


(2.12) 


当初值为 ar (0) = 3.0 时, Newton 法很快求得 a; ⑷ 》 3.591 12. 作为比较,在例 2.1 中 
的二分法直到第19步迭代其近似值的前五位数字仍未正确确定. 口 

Newton 法的收敛性依赖于 5 的形状和初值.图 2.4 给出了一个从初值就发散 
的例子.为了更好地理解什么有益于收敛，我们必须仔细地分析每相邻两步间的误 
差 ■ 



图 2.4 由于每一步与真值 f 的距离都在增加，故 Newton 法从初值 a: ⑼开始就发散 
假设〆具有二阶连续导数且〆'(*•)# 0•因为一 0且〆 '在: r* 处连续， 
则必存在； r， 的一个邻域，使得在此邻域内 g'\x) ^ 0. 我们仅在此邻域内考虑，且 






因为当 5 — 0 时， c(5) -» |^^|,所以5 — 0时, Sc(S) 0. 我们取满足 Sc(S) < 1 
的5,则由 (2.15) 式得 

—e(* +1 ) 卜 (c( 印⑷ ) * 1 2 3 . (2.17) 

假设一个初值满足卜 (0) | = |* (0) <么则由 （2.17) 式得 

卜卟誓. ㈣ 


勺一个邻域，当初僅 
事实上，当〆 二 
都收敛到 此根 . U 


* 00时，上式收敛到0,于是，: c(*> -» 

:如果〆"连续且 ar •为〆的一个单根，则存在？ 

0值为此邻域内任一点时， Newton 法都收敛到 *•. 

，二阶连续可微、为凸函数且根存在时，则无论初值如何取， Newton 
• 如果初值位于一个区间 [a, 6], 则需要验证下列一些条件.如果 

(1) 在区间 [a, &] 上，〆 '(a:) 乡0; 

(2) 在区间 [a, 6] 上， sTix) 不变号； 

(3) 〆(<!)〆⑼ <0; 

⑷ W(aW f (a)\ < & - a 且 W(b)/9 H (b)\ <b-a, 

则对于此区间内的任一个初值 Newton 法都将收敛.上述结果可以在许多初等 
数值分析书上找到，如 [112,173,217,328]. 在不太严格条件下的收敛定理可见 [423]. 
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收敛阶数 

收敛阶数是用来度量如 Newton 法等求根方法的收敛速度的一个量.称某方法 
的收敛阶数为 A 如果= 0且 


(2.19) 


其中常数 C _ 0且/? > 0. 在精确近似真值可以达到的情况下，高阶收敛为优.然 
而,某些高阶收敛方法是以付出稳键的代价而实现的，某些速度较慢的方法会比其 
对应的快速算法更安全. 

对于 Newton 法, (2.15) 式指出 


• 2^(x(*))- 


(2.20) 


如果 Newton 法收敛，则其连续性告诉我们，此方程的右端收敛到于是， 
Newton 法二次收敛，即泛= 2且 C = |^^|. 二次收敛速度 很快： 一般地，解的 
精度是每次迭代的两倍. 

对于二分法，如果在其初始区间有解的话，由于其每次迭代区间的长度均减半 
且 t l^ = 0,故它显示出具有类似线性收敛 (/?= 1) 的特点.然而，不必要求距 
离 x^- x* 每次迭代都缩小，且它们的比值可能是无界的，于是,对于任何 /3 >0, 
feW 可■能不存在.这样，二分法从形式上就不满足收敛阶数的定义 • 

我们可能会用一个如二分法一样安全的括入根法，以保护快速收敛，而少用如 
Newton 法这样缺少求根可靠性的方法.我们不把括入根法看成是产生下一步估计 
值的方法,而可以把它仅看成是能提供根所在区间的一种方法.如果 Newton 法某 
步迭代结果不在当前区间之间，则此步将被替换或削除，如在多元情形，将变更此 
步的方向 . 2.2 节和 [217] 给出了某些策略.保护性措施可能会降低一个方法的收敛 
阶数 • 


2.1.2 Fisher 得分法 

回顾 1.4 节， 7(0) 可用 -r(0) 来近似.于是，当 P 对应着 MLE 的优化问题 
时，在 Newton 更新方程中，用 J(6>> 来替换 -i 〃⑼是合理的，此时其更新增量为 
h W = ⑽ ( *>)/J (州)，其中八抑） 为在州 点的期望 Fisher 信息量.这样，此更新 
方程为 

妒 +1)^(0 娜 W ) j (妒 ))-1. 


称此方法为 Fisher 得分法. 


(2.21) 



在 Newton 法中,其更新增量 (2.10) 依赖其二阶导数^).如果计算此导数 
比较困难，则可以用离散差分来近似之.称此方法为正割法 (secant 
method), 其更新方程为 




V (二))-》(，”)， 


Vt > 1. 


(2.22) 


此方法箝要两个初值图 2.5 给出了用此方法求取例 2.1 中简单函数最值 
的前几步. 



图 2.5 用介于和间的正割线段来局部近似〆.用得到的估计值 ;c (2> 与 a: ⑴一起 
来生成下一个近似值 


在类似于 Newton 法的条件下，正割法也将收敛到根 z*. 为求得其收敛阶数， 
我们仅在某个合适的小区间 [a,6j 内考虑,假设此区间包含 0^),2： ⑴和; r*, 且在此 
区间内/ 0,〆"⑻/ 0.记 e( t+1 ) = 则可直接证得 



_1 W(x^)/eW-^x^))/e^ 

可 J L ajW-^t-D 


-] 卜 ㈣ ] 




于是， 


(2.25) 


类似地， g>(x^)/e^ « S w (x*) + €<*- 1 )^( x *)/2. 这样， 

护） W) 二 ⑺ A (2.26) 

经仔细验证,可证当 ;《;(*)-» rr •时，上述近似是严格的.于是， 

(2.27) 

其中当 * — 00时， — 备^ = <1 

为求得正割法的收敛阶数,我们必须找到点 m&： t Um = c ，其中 c 为常 
数.为此，先假设上式成立，并用此比例性质代替 （2.27)"S 中的 P- 1 ) 与斤 1 )，只 
剩下了 e (t) , 经整理后，有 

恕 w vs =¥. ( 2 . 28 ) 

因 (2.28) 式右端为正常数，故1 - /? + 1/冷= 0,其解为 13 = (1 + v/5)/ 2 « I. 62 .于 
是，正割法的收敛阶数低于 Newton 法. 

2.1.4 不动点迭代法 

一个函数的不动点就是抬此点的函数值等于其自身的点.用不动点方法求根 
就是要确定一个函数 G 使得= 0当且仅当 G(x) = x. 这样就把求〆的根的 
问题变换成求 G 的不动点问题，而利用更新方程= G(*W) 就是寻找不动点 
的最简单方法. 

任何合适的 G 都可以拿来尝试,但选取 G{x)= g'(s)+x 是显然的.此时，其 
更新方程为 

*(*+!)= x (*)+^(*(«)). (2.29) 

此算法的收敛依赖于 G 是否是收縮的 (contractive). 要使 G 在区间 [a,fc] 上 
是收缩的，则它必须 满足： 

(1) 只要 * e M], 剡 G(x)e M; 

(2) 对某个 A e [0,1), |G(zi) - G(X 2 )\^\\ X1 -X 2 \, Vx!,x 2 € [o,6]. 

注意到上述区间 [a, 6] 可以是无界的，第二个条件就是 Lipschitz 条件，称 A 为 Lipschitz 
常数.如果 G 在区间 [a, 6] 上是收缩的，则在此区间内存在唯一的不动点且对 
于此区间内的任一初值,此算法都将收敛到此不动点.此外，在上述条件下，我们有 
|x (t) -**l^ - x ⑼ I. (2.30) 





类似此会 


有时也称不动点迭代法为泛函迭代.注意， Newton 法和正割法都是不动点迭 
代的特殊情况. 

刻度调整 

不动点迭代如收敛，则其收敛阶数依赖于 A. 然而，我们并不能确保其收敛. 
特别地，如对所有的： r e [a,6], \G\x )\ 彡 A < 1，则 Lipschitz 条件成立.如果 
G(x)= g , (x) + x, 则 上一条 件相当于要求在区间 [a, 6] 上| 5 "(*) +1| < 1.当 p" 在 
[a,b] 上有界且不变号时，因为对某个 a^O, a/(*)=0 当且仅当 g'(x) = 0,故我们 
可以通过选取 G(x) = <x^{x)+x 来重新调节不收敛问题.为保证收敛，所选取的 a 
必须 满足： 在包含初值的一个区间上，|0) + 1| < 1. 尽管人们可以仔细地计算 
合适的 a， 但试几个值可能更容易.如果对于选取的此算法快速收敛，则此值就 
合适 • 

刻度调整仅是校准 G 的若干方法中的 一种. 一般地，不动点迭代的有效性强 
烈地依赖 G 的 形状. 例如考虑求 gf{x) = * + log® 的根.此时，尽管 G(») = 收 
敛很慢且 G(x) = -log* -点也不收敛，但 G(x) = (* + e-)/2 收敛很快 ■ 

例 2.3 (—个简单的单变置优化， «) 对于 (2.2) 式的函数 g ⑷=,图 2.6 
给出了用 G(x) =〆(:《;) + 1和 a = 4的刻度调整的不动点迭代算法的前几步.注意 
到，用其根来确定下一步 ：c (t) 的直线是相互平行的，且其斜率等于-1/«.基于此， 
有时也称此方法为平行弦法 (method of parallel chords). 口 



图 2.6 用 G { x )= s' ⑻+ z 和 a = 4求取例 2.3 中函数 5 ⑻=最大值的刻度调整不 
动点迭代算法的前三步 


假设对于对数似然 i 是二次的或在4附近是近似二次的情况，我们想求其参 
数的 MLE. 此时,得分函数局部线性， Z" 近 似为一 个常数，记为7-对于二次对数似 







2.2 多元问题 


在一个多元优化问题中,假设3是 P 维向量: T =(町,… ,X P ) T 的实值函数，我 
们要求其最值.令 x (t) = (# ，…， 为第 * 步最优点的估计. 

前面讨论的关于单变量优化问题的一般原则也适应于多元 情形. 算法仍为迭 

代,且多数算法都利用基于 Taylor 级数或正割近似而得到的〆的局部线性来计算 

迭代结果.尽管形式上有些小的改变,但收敛准则仍是类似的.为构建收敛准则，令 

D(u,v) 为两个 p 维向量间的距离.两个显然的选择为 | 叫-糾和 


I>(u,t>) = 



. 则绝对与相对收敛准则由如下不等式 给出： 


2.2.1 Newton 法和 Fisher 得分法 


为适用 Newton 法的更新方程，我们用二次 Taylor 级数展开近似 g(x ” 如下 


g ( x ') = g ( xW ) + (** - *(*))V(*(*>) + (** - *(*))V(* ⑷ )(* •- x ⑷)/2， (2.31) 


并且通过求取此二次函数关于^的最大值以进入下一步迭代.令 (2.31) 式的右边 
的梯度等于0,得到 

¥(*(*))+ - *< {) ) = 0. (2.32) 

由此得到更新方程 

*(*+«=*(«)- fT(x(*)rW*>). (2.33) 

另外，注意到 (2.32) 式左端实际上是 g'(f) 的线性 Taylor 级数近似,且求解 (2.32) 
就相当于求此线性方程的根.无论从哪个角度看，多元 Newton 迭代的增量都为 
h w = W*>)-V(*(*)). 

同单变量情形一样，在 MLE 问题中，我们可以用在点的期望 Fisher 信息 
量替代在点 0 (t) 处的观测的信息量,则此时多元 Fisher 得分法的更新方程 
为 

= ff (t) + T(0^)~ l l , (O (t) ), (2.34) 

此方法渐近等价于 Newton 法. 

例 2.4 (—个二元优化）图 2.7 给出了 Newton 法在一个复杂二元函数上的 
应用.此函数曲面由阴影及等高线给出，其中越淡的部分函数值越大.此算法始于 








到真正的最大值和局部最小值 













-l" 

=0 W + (Z T W ⑷ Z) _1 (Z T (y - »(*>)), 









2.2 多元问趙 29 


为量化上述变量间的关系,我们将拟合一个逻辑斯蒂回归模型.于是，记為为 
一对图像眼部强度的绝对差，且表示第 i 个探针匹配是否成功 （i = 1,…，1 072). 
似然函数如 （2.35) 式.下面我们将利用 Newton 法. 

我们取初值〆= (4 0) ,^ 0) ) T = (0.959 13,0) t , 这意味着在0步迭代,对于所 
有的 i, % = 775/1072.表 2.1 指出此算法很快收敛到卢⑷= (1.73874, -13.588 40) T . 
如采用对应于取= 0.5, i = 1， • - • , 1 072的初值冷⑼= 0,则此算法仍很快收敛•而 
当用 Bernoulli 数据拟合逻辑斯蒂回归时,据经验,多采用后一种初值（见 [278]). 因 
为爲= -13.59 接近负9倍的边际标准差，故数据强烈支持把眼部像素区别作为判 
断识别与否的假设. 口 

表 2.1 用逻辑斯蒂回归模型拟合例 2.5 中的脸部识别败据时， Newton 法每步迭代的参数 

估计和相应的方差-协方羞阵估计 _ 

t 摊代 /3(«) 


( 0.959 13 \ / 

y 0.000 00 ) \ 

( 1706 94 ) ( 

\ -14.200 59 ) \ 

r 0.010 67 -0.114 12 \ 

k -0.114 12 2.167 01 ) 

' 0.133 12 -0.140 10 

k -0.140 10 2.363 67 ) 

( 1737 25 ) 1 

{ -13.569 88 ) \ 

(- =) ( 

' 0.013 47 -0.139 41 \ 

^ -0.139 41 2.320 90 ) 

f 0.013 49 -0.139 52 \ 

^ -0.139 52 2.322 41 ) 

(- =) ( 

r 0.013 49 -0.139 52 \ 

k -0.139 52 2.322 41 ) 


出于多种原因考虑，利用 Fisher 得分法来求广义线性棋型的极大似然估计是 
非常重要的.首先,它是迭代再加权最小二乘 (IRLS) 方法的应用.令 

€ (t) = y- » (t) ， (2.40) 

和 

x w = Z0 W + (2.41) 

则 Fisher 得分法的更新方程可以写成 

+ (z T W ⑴ Z) _1 Z T e^ 

= (Z T W ⑷ Z) _1 [Z T W W Z0 W + Z T W w (W w )- l e w ] 

= (Z T W ⑷ Z) 一 1 Z T W (t) * ⑷. (2.42) 

从 (2.42) 可以看出，由于办 ( * +1) 是关于 Z 的加权最小二乘的回归系数，且其 














卜正定阵 _AfW 来近似负的 Hessian 阵，并 
K 步长参数 a ⑷ > 0,其中此参数将保证每步均上升.例如 J 
= 1的运算结果显示走下坡路，则可取一半的 
如果此步仍然走下坡，则再取一半的直到某充分小甶 
Fisher 得分法，由于= /(«<*>) 是半正定的，则倒向I 


1,如果取 
>. 称此方法 为角向 追踪法 • 
h 的步长以保证上升.对于 
D 向 Fi8her 得分法将避免走 


例 2 . 6 ( —个二元优化，续）图 2.S 给出了利用 
过的二元函数最大值的图例，其初值为: 

此最速上升算法的路 
虚线表示 2.2.2 节第 


r 利用最速上升法求取例 2.4 中讨论 
.每步均取 W = 1/4. 图中实 线表： 

:，伹其速度并不快且效率不高.图 


&管成功求得《 
子所讨论的另一 



步长取半法仅是倒向追踪法中（ 

向上寻找有利步长的方法为战搜索 
用一个正定阵替换负的 Hessian 阵I 
敛就必须要求每步都上升（即要求当《增加时， 

快）且每步的方向都不要接近垂直于梯度（即避免来自 
- 就满足上述要 


增加时， g{x^)-g{x^) I 








阵，即对于所有的 *, M^=M , 则其更新方程为 


*<*+”= x ⑷- M-V(* (t) ), (2.46) 

而是 M 的一个合理选择.注意到,如果 M 是对角阵，则此方法就相当于 
对 g 的每个分量分别应用单变量刻度调整的不动点算法.当求取类似于对数似然 
这样的局部二次函数的最大值时,不动点迭代和 Newton 法间的关系请见 2.1.4 节. 

多元两散 Newton 法用一个有限差分商的矩阵近似令 g，(x) 
的第 i 个元素为 g<(x) =如 (aO/dau ，以勺记第个分量为1而其他分量均为0的 
P 维向量.在所有的用离散差分近似 Hessian 阵的第 (i, j) 元素的方法中,一个最直 
接的方法可能 是：令 MW 的第 （i, 力元等于 



其中必为常数.对于所有的和 t , 取必= / i 最容易，但其收敛阶数 0 = 1. 









现存在唯一一种对称且秩为1的方法满足这些要求 （[115]) •记= *(*+”- 
*(*)，|^) = ¥(*(* +1 )) -#(*(0)，则关于 M ⑷的更新方程为 

M“ +1 ) = M ⑷ + C (〜⑷ (《(*))' (2.49) 


其中 V (*)= V (0_ M (0 z (0, c ( t ) = _^. 

监测的更新方程的变化非常重要.如果的分母为零或接近零，则它 
很难可靠地计算.此时我们在此步迭代中临时取 M< t+1 > = MW 我们也希望通过 
倒向追踪来保证其上升.如果- M (t > 正定且 c ⑴彡0,则 -Af (t+1 ) 也将正定.如果 
确保正定性能从当前迭代传到下次迭代，则我们用术语遣传正定性来表示这种渴望 
的情形.如果 c (t) > 0,则可能需要通过缩短 C (t) , 将其向0靠近直至正定条件满足. 
于是,针对此更新的正定就不是遗传正定.监测技术、倒向追踪技术和方法的表现 
请参见 [327, 3491. 

现有多种对称的秩为2的用以更新 Hessian 阵近似的方法，且它们仍满足正割 
条件.秩为2的用以更新 Hessian 阵近似的 Broyden 族（[71，73】）具有如下 形式： 


M (*+i) =M (0_ 


M ⑷; s ⑴ (Af ⑷ *(*>) T 



y ⑷ (y (t) ) T 

(*(*)) T y(0 


+ 沪) ((Z ⑴) TAf^Z ⑷) d ⑷ (d ⑴) T 


(2.50) 


其中 



当沪） = 0 时，这就是此族中最有名的 BFGS 更新（[72, 172, 238, 500]). 另一个取 
^ = 1的更新也得到了广泛的研究 ([115, 174]). 然而,大量经验与理论研究表明， 
BFGS 更新一般优于后一个.现已证明， (2.49) 式的秩为1的更新表现也不错,且较 
































中 htuZi), i= 1，… ，n 为观测数据.人们可以巧妙地应用这样的目标函数来解决 
实际问题.例如，对于某个非线性函数/和随机误差 h 我们可以估计0以拟合模 
型 

Y i = f{z i ,0) + e i . (2.52) 

Gauss-Newton 法不去近似仏而是用/在点的线性 Taylor 展开近似/本 
身.由此线性近似替换/就成了一个线性最小二乘问题,而解此问题就得到一个更 
新妒 +1 )_ 

特别地，非线性模型 (2.52) 可被近似为 

/(**，》(*)) + («-« (t) ) T / / (*i,« (t) ) + £i = Rz^^ + ei, (2.53) 
其中 /'(**，0( 0 )为 /(**>*)) 关于 = 1，... ，P， 在 (Zi,e (t) ) 处的偏导列向量. 
由抑 } = -E[wi- /»*)，叫 2 关于#的最大值得到 Gauss-Newton 法的迭代 
值，而 NewtS 法的迭代值则由最大化 g 本身的二次近似得到，即由 p(0 (t) ) + (0- 
e w ) T g'(0 w ) + (0 - e w ) T t/\e w )(e-0 w ) 得到 • 

以； ^ (t ) 记取值为： 4*) = Vi - 的工作味应，且定义# = /W 0 )， 
则近似问题可被描述成最小化下面线性回归模型 

⑷ (❼ ⑷)+ «， (2.54) 

的平方残差，其中 X^,e 分别是第 i 个分量为 X； () , Ci 的列向量.类似地，是 
第 i 行为(押的矩阵. 

(0 - 0 ⑷卜 ((A<*)) t A (*>) _1 (A ⑷) t *(*> (2.55) 

时，拟合 (2.54) 式的均方误差达到最小.于是，关 于妒） 的 Gauss-Newton 法的更 
新为 

0 (t+i) = e {t) + ((’))^(0) - ( A (0)T x (t) (2.56) 

相对于 Newton 法， Gauss-Newton 法的潜在优点在于它不箱要计算 Hessian 
阵.当/接近线性或模型拟合较好时， Guass-Newton 法的收敛速度很快.但在其 
他一些情况,特别是由于模型拟合不好而当残差很大时，此方法收敛可能很慢或根 
本就不收敛（即使初值很好).对于这些情况，现有多种改进的具有良好收敛性质的 
Gaus&*Newton 法 ([132]). 



36 第 2 章优化与求解非线性方程组 


方程 ^(*) = 0 是一个含有 p 个未知变量的非线性方程组. 
Gaus^Seidel 迭代每次均把〆的第 j 个分量看成为 q 的单元实 
便的单元优化方法求解一维方程 ^ +1) ) = 0的根.所有 P 个; 


靠，故通过应用 Gauss-Seidel 迭代建立的单元求根问題的解一般易于自动化处理. 
再者，由于单元优化任务易于完成，故其总的计算量可能小于多元方法所要求的. 
总之，此方法的优点意味着它非常易于编程. 

例 2.8 (—个 二元优化问腰，续）图 2.9 给出了利用 Gauss-Seidel 迭代求例 2.4 
中讨论过的二元函数最大值的步骤.不像本章的其他图，本图中的每一条线段均表 
示当前解一个坐标的 改变. 例如， * ⑴即为从经一步水平和垂直移动后的顶点. 
—个完整迭代包括两个单变量迭代.对于每个单变惫优化,我们应用拟 Newton 法. 
注意到,从单变量优化的角度看 ，从* (fl > 向左走的第一个水平迭代是失败的，由于 
它没有找到此 变量的 整体最大值，而仅找到了此变量的局部最小值.尽管这并不是 
我们所希望的，但经过系列的 Gauss-Seidel 迭代后，仍能克服此不足，并能求得整 
体多元最大值. 口 











Newton-Raphson 方法求设的 MLE, 讨论你得到的结果，并 回答： 


的均值 



(b) 应用初值 
最大值. 

(c) 应用初值为 _1, a = 1,0.64,0.25 白 
刻度因子的选取. 

(d) 应用初值为= (-2,-1) 的正«法来估计 0. 当采用初值（妒,0⑴）= 
(-3,3) 或其他值时，情 S 

(e) 通过本例比较 Newton-Raphson 方法、二分法、不动点法和正割法的速度和稳定性. 

当你把上述方法应用于一个来自 N«U) 的20个随机样本时，你的结论有无改变？ 

设密度函数为 /Oc) = ^2^£i, 0 < a: < 2n, 其中0是介于一； i 和 Jt 间的参数，且 
来自此密度的独立同分布的样 本为： 3.91, 4.85, 2.28, 4.06, 3.70, 4.04, 5.46, 3.53, 2.28, 
1.96, 2.53, 3.88, 2.22, 3.47, 4.82, 2.46, 2.99, 2.54, 0.52, 2.50. 我们希望估计 0. 

(a) 画出在 一 ji 和 ji 间的对数似然函数. 

(b) 求0的矩估计. 

(c) 把 （b) 求得的估计作为初值，用 Newton-Raphson 方法求6的 MLE. 当采用初值 
-2.71 

(d) 当初值为 


重复 （c). 把这些初值分成若干个独立 
5众数)，讨论你的结果. 

(e) 找两个尽可能近似相等的初值，对 Newton-Raphaon 方法来说它们收敛到两个不同 
的解 • 

假设在某个种群中其个体的存活时间 t 具有密度函数/和累积分布函数 F， 则汉⑴= 
1 - F ( t ) 为其生存函数，而其危陵函教 (hazard function) 为九⑴=/⑴/(I - F ⑹，它 
表示在其己存活时间为*的条件下在时刻《死亡的瞬时风险.比例危险模型假设危险函 
数依赖于时间 t 和协变向量*，且其模型为 






























































项式算法.由此引出一个著名猜想：对于任一完备 NP 问通都不存在多项式算法. 
此猜想的证明或反例仍厲于数学中的几大未解问题之 

由此让我们认识到现仍存在多个很难的优化问理，且用传统方法很难严格地将 
其解决.如触鑛,6、试難计神参賊计娜巾齡个舰關组合优化. 

3.1.1 几个例子 


imaiMi 


参数集中的哪些参数出现在模型中，则它经常是—个组合优化问题 • 

例 3.1 (逋传学）我们经常利用非常复杂的组合优化问通来分析个体和近亲 
个体群的基因数据.比如，一个染色体的基因定位问题就是遗传图 问题. ^ 

—个染色体中的基因或更一般的基因标记都可以用一个记号序列来 表示而 
沿着染色体的每个记号的位置称为它的位点 ( locus ). 记号标示出基因或基因标记， 
而存储在一个位点的特定内容就是—个等位基因 

由于诸如人类的二倍体物种都有—对染 色体于 是，在任一位点都有两个等位 
基因.如果一个位点的两个等位基因相同，则称此个体在此位点是 纯合的 (homozyg- 
ous); 否则，称之为 杂合的 (heterozygous). 无论哪种情况，每一亲本都在子本一对染 
色体中的每个位点贡献一个等位基因.由于在子本染色体对的相应位点，亲本有两 
个等位基因,故亲本的贡献有两种可能.尽管亲本的每—等位基因都有50%的机会 







，一个交叉互换出现在第三 


i 在贡献染色 ft 
色体两个位启 


当在一条亲本染色体两个位点的等位基因经常频繁地（相对于偶然机会所期望 
的而言）一起出现在贡献的染色体上时，我们就称它们是关联的或连接的 (linked). 
当在一条亲本染色体两个不同位点的等位基因没有同时出现在贡献的染色体上时， 
则在位点间出现了重组 （recombination). 重组频率决定了两个位点间的关联度，而 
且少见的重组对应着强关联，两个位点间的关联度或图距离 (map distance) 对应着 
两个位点间交叉互换的期望次数. 

一个 P 个标记的遗传图包含着其位点的一个排序和相邻位点间的重组距离或 
概率列表.给每个位点分配一个标号= 1,2,…， p). 以❼= (e u …， 9 P ) 表示图 
的排序部分 (ordering component). 它表示 p 个位点标号的位置沿着染色体的排 
列，且如果标号为 Z 的位点处于染色体的第：/个位置，则士 = /. 于是,0是整数 
1,2,…， p 的一个排列.一个遗传图的其他部分就是相邻位点间距离的列表.令相 


位点，/ 


j.j: 





果 N 也-0；^ +1 | = 1,则第 i 条染色体的两个相邻标记就出现了一个 重组； 如果 
|^-^ +1 |=0,则没有观测到 重组. 如果假设每个区间内重组事件的发生是独 
立的，则一个给定图的概率为 

nn ^ 1 - (i-ix^- Xi ,e i+l \) - ^ i+1 i}. (3.1) 

给定一个顺序®，易得重组概率的 MLE 为 






(3.2) 


给定 d(<H_ +1 )， 则介于位置为 j 和 j +1的位点间的重组数为£ \X il0j -Xi, ej+l l 
且它服从二项分布 B(M 的為 +1 )).我们可以通过加入 P-1 个 1 ft 邻位点集的对数 
似然和用条件极大似然估计 J(6, 七 +1 )替代 d(ej,0 j+1 ) 来计算0的偏似然.对于 
任意以 d(fl) 计算这些极大似然估计，则0的偏似然为 

(3.3) 

其中如果 d(0j,e j+l ) 为0或1， r (心，心 +1 )为 o. 则通过求取 （3.3) 在0的所有排 
列中的最大值，可求得极大似然遗 传图. 注意到 （3.3) 式中的每一项 T(0j，h +1 ) 的 
值仅依赖于两个位点.假设可列举所有的位点对，且对所有的 T(i,j) 
都可算得，则 T{iJ) 共有 p(p - 1)/2 个值.于是,对于任一排列0，其偏函数可立即 
由加和 T(i,j) 的某些值得到. 

然而,求取偏似然遗传图需要在 p!/2 个可能排列中寻找最大的偏似然.这是旅 
行商问题的变形,其中每一个基因标记对应着一个城市，且城市 i 与:/间的距离为 
T(i,j). 旅行商的旅行可从任一城市出发、在拜访的最后一个城市结束，且其前进 
与倒退是等价的.目前还没有在多项式时间内能解决一般旅行商问题的己知算法 • 
此例子的其他细节和推广请见[190, 4831. v m 

例 3 .2 (回归中的变量选择）考虑有 p 个潜在预测变量的多元线性回归问 

题.选取合适模型是回归中最基本的步骤.对于给定的独立变量 F 和候选预测变 

量我们需要找到形如 F = ^o+t~x ii+ e 的最佳模型，其中 
为 U，_" ,p} 的一个子集〆为随机误另外，最佳模型的定义可能多 

种多样. 
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假设我们的目的在于应用 Akaike 信息准则 (AIC) 来选取最佳模型（[7, 75]). 
我们要寻找预测变量的一个子集以最大化拟合模型的 AIC： 

AIC = JV log{RSS/iV} + 2(5 + 2), (3.4) 

其中 iV 为样本变量， s 为模型中预测变量的个数， RSS 为残差平 方和. 另外，当考 
虑 Bayes 回归时，假设利用正态 -Gamma 共轭 先验： /? 〜 N(n t <r 2 V) t uX/<7 2 ~ xl 
此时,人们转而求取对应着最大化后验概率模型的预测变量子集 ([445]). 

无论对于上述哪种情况，因为每个变量或截距项都可能被选入或去掉，故变量 
选择问题就是在 2P+ 1 个可能的模型中择优•对于 2P+ 1 个可能模型中的每一个，都 
需要估计最优的 ft,. 而对于任一给定模型，此步很容易实施.尽管现已有一些搜索 
算法可用来进行经典回归模型的选择，且比穷举搜索法更有效,但它仅对相对较小 
的 P 才可行 ([188, 396]). 我们知道,为求取 AIC 或 Bayes 角度的整体最优值,现仍 



放弃那些能保证找到整体最优(在适当条件下）但在实际可搡作的时间内不可能完 
成的算法.取而代之的是，我们转而寻找那些在可容忍的时间内能找到一个好的局 


有时称这样的算法为启发式算法.我们希望利用这些算法平衡速度与整体最 
优，从而找到一个可与整体最优竞争的候选者（也就是接近最优值).启发式算法的 
两个基本特 征是： 

(1) 逐步改进当前的候选解； 

(2) 限制任一步迭代仅在局部邻域里寻找. 

这两个特征表明启发式算法首先强调的是局部搜索策略. 

没有一种启发式算法能很好地处理所有问題.亊实上，以处理所有可能的离散 









集合. 
























索 （random starts local search) 技术即为克服这一不足的一种方法.此时，从多个 
初值出发，重复运行一个简单的上升算法直到结束.这些初值是随机选取的.选取 
初值的一个最简单方法即是在 © 中独立且均勻地随机选取.某些精致方法可能考 
虑某种类型的分层抽样，而其层是通过某些试运行以期分解 © 成几个具有不同收 
敛行为的区域来得到的. 

仅依赖随机初值来避免局部最大值看来不是令人很满意.在后面几节,我们将 
引入一些修改的局部搜索法,而这些修改的目的在于每一次运行均有机会求得具有 
整体竞争力的候选解，也可能是整体最 优值. 当然，也可结合应用多重随机初值的 
策略和这些修改方法以提供一个更可信的最优解. 

例 3.3 (棒球运动员的 薪水） 实际上,如果时间允许采用多个随机初值，则由 
于随机初值的局部搜索法易于编程且运行速度快,故它是一种非常有效的方法.这 
里，我们考虑它在回归模型选择问題上的应用. 

表 3.1 列出了 27个反映棒球员表现好坏的变量，如击球百分比和本垒打数. 
这些数据来自1991年的337位球员（不包括投手).球员在1992年的薪水（单位： 
千美元）可能与上一赛季的这些变量有关.这些数据来自 [555], 也可从本书主页上 
下载.我们把薪水变量的对数作为响应变童，其目的在于应用线性回归模型来求取 
预测薪水对数的最优预测变量 子集. 如假设任一模型均有截距项,则搜索空间共有 
2 27 = 134 217 728个可能的模型. 

_ 表 3.1 影_棒球员薪水的潘在变置 

1. 占球率 10. 1击未中出局 (SO) 

2. 在垒的百分比 (OBP) 11. 盗垒# (SB) 

3. 纪录到的跑垒得分 12. 失误 

4. 安打数 13. 自由队员》 

5. 二垒打 14. 仲栽 b 

6. 三垒安打 15. 每次 SO 的得分 

7- 本垒打 (HR) 16. 每次 SO 的安打 






















也可能如此)，因此它有可能避开获得局部最 大值. 当没有上坡移动时，禁忌第 
早期形式，可称为最速上升法/适度下降法,将移动到不满意度最小的邻域 （[i 
如果选取一步下坡,则必须小心以保证下一步（或将来的某步）不是简与 


基于此算法的最近历史记录，暂时禁止或禁忌 (tabu) 某些移动. 

禁忌搜索法共把四种一般类型的准则加入了局部 搜索. 第一种就是临时禁止 
某些潜在移动，而其余的则包含对一个更好解的渴望 (aspiration). 在解空间希望区 
域内搜索的强化 （intensification) 以及搜索候选解的多样性 （diversification), 从而可 
以在更广泛的范围内考察解空间.在讨论完禁忌算法后我们再定义这些术语. 

3.3.1 基本定义 

禁忌搜索是一种迭代算法，其在初始时刻 f = 0时的候选解为在第 f 步 
迭代，一个新的候选解来自 0 (t> 的一个邻域,记其为.以表示此算法到 
时刻 t 时的历史记录.由于仅某些形式的历史记录是此算法将来运算所需要的，故 
HW 是选择性的历史记录. 

不像简单局部搜索法,禁忌算法生成的当前候选解的邻域依赖于搜索的历史记 
录，记其为■汐 W ，_ff(*)). 另外，在⑴）中确定最合适的 0 (t+1) 可能不仅依 
赖于/，而且也依赖于搜索历史记录.于是,我们可以用一个扩展的目标函数/„ ( 0 
来评价邻域. 


由到 0 ( t+ D 这一步可由多个属性 ( attribu te) 来刻画.用来描述移动或移动 



邻域. 


可以通过一个回归模型的选择问题来说明表 3.3 中的属性.假设在时刻 t 的模 
型中有第 i 个变量，则令# = 1，否则取 0. 假设所有模型均采用2-变化的邻域， 










如果对应着交换#>与< +1) 这一属性，则：?《«对应着不交换这一厲性. 

随着算法的进行，第 < 步移动的属性将随着 t 在变化,并且候选解的质量也将 
变化.可用过去的移动、目标函数值和他们属性的历史记录来指导未来的移动•一 
个厲性的崭新度 (recency) 是指从最近具有此属性的某步到现在的步数.如果第 a 
个属性出现在产生 W 的移动，则 ^,^<*)) = 0; 如果第 a 个属性最近出现在产 
生0- 1 )的移动，则，好⑷）=1,以此类推. 

3.3.2 禁忌表 

当考虑 来自# 的移动时，我们要计算目标函数在#°的每一个邻域内的增 
量.通常采用提供最大增量的邻域作为 0 (t+1) , 这即对应着最速上升算法. 

然而，如果在 0 (t) 的任一邻域内目标函数值均不增加时,则通常选取 0 (t+1) 为 
使减少量最小的邻域，这即为适度下降法. 

如果仅用这两个准则，则算法将很快被捕获且收敛到一个局部最大值.经一步 
适度下降后，下一步将回到刚离开的山顶，且接下来进行循环. 

为避免这样的循环，在算法中引进一个暂时限制移动的禁忌表 (tabu list). 每次 
只要采取属性为的移动,就把不放入 r 步迭代的禁忌表中.只要 R(A a ,H^) 
等于 t 时,就终止此禁忌 且把毛 从此禁忌表中除去.于是，在禁忌表中具有此属 





Af^\H^) = {0 ： 价) 且没有 0 的属性当前是被禁止的[ (3.5) 

这将预防取消 t 步迭代的变化，即阻止循环.当此禁忌被终止时，候选解将有足够 
的其他方面发生变化以至于颠倒移动不再起反作用.注意，禁忌列表是一个属性列 
表,而非移动列表.于是，仅一个禁忌厲性就可以禁止所有移动. 

禁忌期限 r 是一个属性被禁止的迭代数.它可能是一个固定数,也可能基于此 
属性特点而系统或随机地变化.对于一个给定的问题,为防止循环,一个精心选取 
的禁忌期限应足够长，但为防止候选解的退化，它也应足够短（当许多个移动被禁 
止时,退化即出现).对于多种类型的问埋，建议取固定的禁忌期限介于7与20之 
间或介于 0.54 与2^之间，其中 P 是此问题的大小（[ 2 27]).在许多问题中，动态 
地改变禁忌期限更有效 （[229]). 另外,对于不同厲性，应用不同期限经常是很重要 
的.如果一个属性的禁忌是限制多种移动的，则其对应的禁忌期限应短些以保证不 
限制将来的选取. 

例 3 . 4 (遗传图，续）我们利用例 3.1 中的遗传图问题来说明禁忌的某些应用 • 

首先，监控交换属性.假设 /U 是一交换厲性.它对应着染色体上两个特定位 
点的互换.当移动出现时，它反对立即取消交换，即把: i a 放入禁忌列表.搜索 
仅在不逆转当前交换的移动中进行.这样的禁忌将通过避免很快回到最近搜索过 
的区域而提升搜索的多样性. 

其次，考虑识别位点标号七的属性,此位点满足 d{e h e j+1 ) 在新的一步移动中 
最小.换句话说，该属性将在此新染色体中确定两个最近的位点.如果此厲性的补 
在禁忌列表中，则在 r 步迭代中禁止移动到其他位点都接近的染色体.这样的禁忌 
将在使力和^ +1 最接近的遗传图中提升搜索的强度. 

有时在一个禁忌列表中交换属性本身而不是其补也是合理的.例如，以 
表示一个顺序为0的染色体上相邻位点间 d(0 j} 0 j+1 ) 的平均值.以属性、表示平 
均条件 MLE 图距离的过大改变,即如果 \h{0 ^) -> C ，则 恚等于 1,否 
则等于0,其中 C 为给定的阈值.如果一个移动的平均改变大于 c, 则我们在 t 步迭 
代的禁忌列表中可以替换八 * 本身.这将防止一段时间内任一剧烈的平均变化，从 








; 个 属性的 


种具体问题的不必要细节,对于导致的一个移动 ，% 


影响为 I(A a ,HW). 在许多组合问题中，有许多邻近移动仅导致目标函数值很小的 
增加，当然也有少数移动能导致较大的改变.了解这些移动的属性将有助于指导搜 

索.如果在低影响移动出现前已有一个高影响移动，则通过影响吸气准则将会不顾 

及逆转一个低影响移动的禁忌.这样做的理 由是： 当前髙影响移动可能把搜索转移 

到解空间的一个新区域,而在此区域内进一步局部考察是益的.低影响移动的逆转 
将可能不包括循环，因为干预高影响移动可能将对部分解空间的详细考察推移到比 
低影响逆转所能达到的更远距离的地方. 

也可以应用吸气准则来鼓励没有被禁止的移动.例如，当低影响移动提供给目 
标函数的改进可忽略时,可降低它们的影响权重并优先考虑高影响移动.现有多种 
方法可用来实现此 想法： 一种方法就是在/„ <0 中加入一个依赖于候选移动相对影 
响的惩罚项或激励项. 

3.3.4 多样化 


一个属性的類率就是自搜索开始后所记录到的显示此属性的移动数.令 C(A a , 
表示迄今为止第 a 个属性出现的次数.于是，可用表示惩罚那些 
频繁重复出现的移动的频率函数.一个最直接的定义为 F{Aa,H^)=C(A a ,HW)/t, 
其分母可用和、最大值或各种属性出现的平均次数来替代. 


可用基于属性频率的准则来增加禁忌搜索期间被检査的候选解的多样性. 

假设在整个历史过程或最近於步移动期间，每个属性的频率都被记录到.注 
意，此频率可以是两种类型中的一个,且它依赖于所考虑的属性.如果一个属性对 
应着 0 (t) 的某一特征，则其频率将度量此特征在搜索期间所考虑的候选解中被看 
到的 频数. 称这样的频率为滯 留類率 (residence frequency). 另外，如果一个属性对 
应着从一个候选解到另一个候选解这一移动期间的某一改变，则称此频率为转换频 
率 (transition frequency). 例如，在例 3.2 中引入的回归模型选择问题中，表示在模 
田量: ri 的属性即对应着滞留频率,而表示一个减少 AIC 移动的属性则 

m. 


户包含预 i 
友着转换; 


如果属性具有高滞留频率且最近岭步移动的历史数据显示它几乎包含解 







空间的最优区域，则表明九可能和髙质量解有关.换句话说，如果最近历史数据 

显示搜索是与解空间中很差解区域相粘接，则一个髙滞留频率可能建议此属性与一 

个不好的解相 关联. 一般地， 岭>丁 是一个中期或长期的记忆参数,它允许累积附 
加历史信息以使未来搜索更加多样性. 

如果属性 A a 具有高转换频率,则此属性可能被称为填缝济 (， 

索中为了求得一个很好的解,这样的属性会经常地被访问，但很抄 

或改变 ([227]). 此时，该属性的影响低. 

犹是在中加入_ 
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开究增加搜索多样 
147J 中建议选取 


齐 (crack filler) •在 S 

艮少提供根本的改兹 

、一个惩罚或激励3 




. / /(® Ct+1) ). 如果納，_ 

I /( 妒+ * 1 )) - eg 肩，如果 /( 妒 +1) ) < 妒)， 1 ’ 
其中 C > 0. 如果所有没有被禁止的移动都走下坡路，则此方法鼓励那些具有髙频 
率属性的移动.可用类似的策略使上坡移动的选择变得更加多样. 

除了在目标函数中加入惩罚或激励项外，研究分级的禁忌状态也是可能的，即 
—个厲性可能仅部分被禁止.建立分级变化的禁忌状态的一种方式是可利用概率禁 
忌 决策： 为一个厲性分配一个被禁止的概率，其中此概率要根据各种因子，包括禁 
忌期限而调整 ([227]). 

3.3.5 强化 

在某些搜索中，强化在解空间某特定区域的搜索可能是有益的，也可利用频率 
以指导这样的强化.假设把最近《/步移动的属性频率列成一个表，且保留其对应的 








(6) 此邻域是否通过一个吸气准则？如果通过，则转至第8 步； 

(7) 如果# G 的所有邻域都考虑过了，且没有一个被所采用作为则停 
止.否则，选择秩次最高的邻域且转至第5 步； 

(8) 采用此解作为 0 (t+1) ; 

(9) 通过建立基于当前移动的新禁忌或通过删除过期的禁忌来更新禁忌 列表； 





为与上述物理过程的动机相一致，本节将提出一个求最小值的优化问 题：在 

d e © 内求 /(e) 的最小值.于是，可用类似于上述物理冷却过程来求解一个组合优 

化问题 （[111, 330]). 对于模拟退火算法，0对应着材料的状态， /(tf) 对应着其能量 
水平，最优解对应着具有最小能 量的丨 当前状态间的随机转换，即由到 

的移动由上述给出的 Boltzmann 分布决定，而此分布依赖于称为温度的参数.当 


温度髙时，更可能接受上坡移动，即向更高能量的状态移动，这将阻止算法收敛到 
己经找到的第一个局部最小值.如果没有适当选取所考察的候选解空间，则此局部 
最小值可能是早期不成熟的.随着搜索的继续，温度在降低.由于仅有少数上坡移 
动被允许，故它将愈加强迫搜索集中在当前的局部最小值.如果适当确定冷却进度 
(cooling schedule), 则算法就很有希望收敛到整体最小值. 


模拟退火算法是一个迭代算法,时刻 t = 0的初值为温度为 
示迭代，此算法在几个阶段内运行，且阶段标号为 j = 0， 


7D •用 H 
-个 阶段! 


min (l ， exp{[/( 沪 )) -/(©*)]/，}) 


取沪 +1 > = 0 .，否则令妒 +1 > = «»(*); 

⑶重复第1, 2 步叫次； 

(4) 增加且更新 tj = aiTj-i^mj 并转至第1步. 

如果根据总迭代次数的限制或事先给定的&和 m,， 此算法不能停止，则人们可以 
用绝对或相对收敛准则来控制它（见第2章).然而，停止准则多由最小温度来表示. 
算法停止后，所求得的最优候选解即是估计的最小值. 

函数 a 应使温度慢慢递减至 0. 在每个温度％中的迭代次数应较大且关于 
单增.理想的函数应使 m,_ 为 p 的指数，但在实际中为达到容许的计算速度进行 
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使模拟退火算法有时能逃脱一个没有竞争力的局部极小值. 

3.4.1 几个实际问题 
1. 邻城和提案密度 

选取邻域的策略可随指定问题在变化,但最好的邻域一般都小且易于计算. 



的2-邻域允许氏和七间的沟通. 


最常用的提案密度 g (t) ( |0 (t) ) 是离散均匀，此时的候选解为来自 Y(» (t) ) 的完 
全随机样本.这样的选取对计算速度和简单化有好处.另外，也有许多其他更好的 
方法 ([246, 247, 560]). 

快速更新目标函数是加速模拟退火运行速度的最重要策略.在旅行商问题中， 
2-邻域的随机抽样等价于从当前旅行排列中选取两个整数.对于旅行商问题也要 
注意到，当 /(«<*>) 己求得时，在的 2- 邻域中可以有效地算得/(0*)，此时，新 
旅行长度等于原旅行长度减去两个间断连接间的旅行距离，再加上两个新连接间旅 
行的距离.其计算时间不依赖于问题大小 p. 

2. 冷却进度与收敛 

阶段长度和温度的序列称为冷却进度.理想的冷却进度应比较慢. 

模拟退火的极限行为来自第1章介绍的马氏链理论.可以把模拟退火看成为 
生成一列齐次马氏链（每个温度一列）或一个非齐次马氏链（温度在转换间递减). 
尽管这种看法将导致定义极限行为方法的不同,但二者的结论 均为： 所得到的极限 
分布的支撑集仅在整体极小值集合上. 

为理解冷却为什么可以导致算法收敛到渴望的整体极小值，首先考虑固定温度 









oc exp{~m/r} 的马 氏链. 这就是说，户$巧0⑴ = 0) = tt t (6»). 产生随机数 
序列的这种方法称为 Metropolis 算法,我们将 g°?.l 节讨论它. 

在温度减小之前，我们通常都将在此固定温度上运行此链很长时间以使马氏链 
接近其平稳分布. 

假设共有 M 个整体最小值且记此解集为 A<， /在0上的最小值为 / mi „ ，则 
对于固定的 t ， 此链的平稳分布为 


6A? eX P{- 


(3-7) 


由于当 T -* 0 时，如果 i €两,则 exp{-(/(«i) - / mln ]/r} 的极限为 0; 否则为 
1. 这样， 

否則. （3 . 8) 

上述结论的数学证明见[61， 543]. 

另外，也可能把冷却进度与最终解的质量范围联系起来.如果人们希望任一次 
迭代的平均结果与整体最小值的差超过 e 的概率不大于&则冷却应一直到7> 在 
«/log{(JV- 1)/打，其中 AT 是 © 中点的个数 （[364]). 换句话说，这样的将保证 
最终平衡态的马氏链结构满足 


p[/(^)>/ min + c]<5. 

Hajek 证明： 如果邻域互通且最深的局部最小值（非整体最小值）的深度是(；， 
则由 t = c/log{l + i} 给定的冷却进度将保证渐近收敛，其中 i 表示迭代 ([255]). 
定义一个局部最小值的深度为目标函数的最小增加量，此增加1：能使移动逃脱此周 
部最小值而进入另一最小值流域.然而，为以高概率发现X中至少一个元素所需 
迭代次数的数学范围往往超出 © 本身的大小.此时,模拟退火不可能比穷举搜索 
更快地求得整体最小值 ([28]). 

如果人们希望在降低温度前的每一个温度点上，由模拟退火产生的马氏链近似 
其平稳分布，则理想的运行长度应至少为解空间大小的二次函数（[1])，而解空间大 
小本身多是问题大小的指数.显然,如果要求模拟退火的迭代次数少于穷举搜索的 
话,则必须选取短得多的长度. 

在实际中，人们尝试过许多冷却进度 ([543]). 回想一下在第 j 阶段的温度是 
Ti = Wb-l) ，第 :/ 阶段的迭代次数是一种常用的方法是对所有的 
取 m, = 1，且根据较慢地降低温度，其中 a 是一个小量.第二种 
选择是取 = ar^x, 其中 a < 1( -般地, a 》 0.9). 此时,人们可以在降低温度 
时增加阶段 长度. 例如，考虑 = bmj-i(b> 1) 或风 m—O = 6+m^x (& > 0). 





我们给出如下的一般指导方针.有用的策略是选取一个正数 TO 使得对于0中的 
任一 对解氏 和七， exp{[/(«i)- S{fii)\lr 0 } 接近于 1. 这样选取的合理性在 于：在 
算法迭代早期，以一定合理的机会访问解空间中的任一点.类似地，大的可得 
到更精确的解,但会引起较长的计算时间.作为一般经验，大的温度降低将增长降 
温后的运算时间.最后，大童证据建议长时间在髙溫度下运行模拟退火是非常不必 
要的.在许多问理中，局部最小值间的屏障是相当适度的，以至于用很低的温度就 
可以跃过这些屏障.于是，一个好的冷却进度首先就要快速降低其温度. 



I温度进 j 












些步骤,我们在此罗列几个想法. 


初值的策略将有双重 好处： 一是可能找到一个更好的候选解，二是确认收敛到一个 
己经找到的特定最优值.可用分层初值集来替代纯粹随机初值，且在选取初值时先 
做策略上的预处理以便比简单随机初值法取得最小值的可能性更大.如果这种策略 
有用的话,则它定有高付出，如模拟退火算法的收敛速度一般较慢.在某些情况下， 
从运行时间的长短上看，由多个不同随机初值而导致的额外迭代仍可能优于应用较 
长阶段和较慢冷却进度的单一运行. 

解空间 e 可能包括关于0的约束.例如，在例 3.1 中引进的遗传图问题中，当 
有 p 个标号时，0必须是整数1，2,…， P 的一个排列.当生成邻域的过程得到一个 
违反这些约束的解时，就需要消耗更多时间以修复候选解或重新从中抽样 
直至求得正确的候选解.另一种方法是放松这些约束，并且把惩罚引入/以惩罚无 
效解.这样的话,算法能够阻止访问无效解且没有花费大 ft 时间在强迫执行这些约 
束上. 

在基本算法中,邻域的定义是静态的且提案分布与迭代无关.在每一次迭代中， 
对邻域进行自适应限制有时能改进此算法.例如,为避免生成许多无用的相隔很远 
的候选解，让邻域的大小随着时间的增加而缩短是有益的，且这些候选解很可能在 
低温下被拒绝.换句话说，当用惩罚来替换约束时，它可利于邻域仅包含那些能降 
低或消除在当前 e 中约束的解. 







l {l,exp { [c + /(flW) - /(»")] /r^}}, 


其中 c > 0. 

—般地,只要包括有用的温度范围且温度在此范围内以大致相同的速度来回移 
动,而在每一个温度（特别是低温）处都花费足够的时间，则没有证据表明冷却进度 
形状（线性,多项式,指数）有很大的影响 （11461). 那些允许零星的、系统的或交互 

式的增加温度以防止固定在低温处局部最小值的再加热方法可能很有效 ([146,226, 

330]). 

当完成模拟退火后，人们可以取出一次或多次运行的一个最终结果，之后应用 
下降算法对它进行加工打磨.事实上,人们可以用相同的方式再加工某特定场合得 
到的结果，而不必一直等到模拟退火算法结束. 

3.5 遗传算法 


退火并不是唯一的用比喻来解决优化问埋而成功开发的自然过程.遗传算法 


(Genetic algorithm) 就模仿了达尔文的自然选择过程.一个极大化问题的候选解被 
看成是一个用遗传密码表示的生物有机体.一个生物体的适宜度 (fitness) 类似于候 
选解的质量.在高适宜度生物体间的培育可为后代得到渴望的属性提供更髙的机 
会，而在低适宜度（且少有遗传突变）生物体间的培育将保证种群的多样性.随时 

间的推移，种群中的生物体可能随着进化而增加适宜度，因此，可为优化问题提供 

—组越来越好的候 选解. 遗传算法的开创性工作由 Holland 给出 （[Ml]), 其他有益 

的参考文献包括[15,119,175, 231, 395, 448, 450, 562). 

现在我们回到最大值优化问题的标准描述上，在此我们要寻找/⑷)关于0 e e 
中的最大值.在遗传算法的多个统计应用中，/多是联合对数偏似然函数. 













遗传算法是一种迭代算法，以 t 表示其迭代.不像本章前面讨论的方法，遗传 
算法同时跟踪多个候选解.假设第 i 代有 P 个生物体，则在第 t 代大 
小为 P 的种群对应着一个候选解集，… 

达尔文自然选择偏爱那些具有高适宜度的生物体.一个生物体的适宜度依 
赖于其相应的 HB^). 一个高质量的候选解具有大的目标函数值和高的适宜度.随 
着世代繁衍，如果精心选取父代,则培育后的生物体将从其父代那里遗传少量具有 
高适宜度的遗传 密码. 一个子代 (offspring) 就是一个新的生物体，它属于第(« + 1) 

代而用来替代第 f 代的某一个.子代的染色体由父代属于第 i 代的两个染色体所决 

定. 

下面以带有9个预测变童的回归模型选择问题来说明上述某些概念，且假设 

在任一模型中均有截距项.则任一模型中的基因型可以写成一个长度为9的染色 

体.例如，染色体<=‘100110001’就是一个基因型，它对应着仅包含截距项和预测 

变量1，4, 5, 9等几个参数的模型. 

另一个基因型是 4W110100110，. 注意到 与奸) 有几个基因相同.基 
因的任一子集就是一个模式 (schema). 在这个例子中，上述两个染色体共享模式 
•1*01*****S 其中V是一个通 配符： 它表示可忽略在此位点的等位基因.（这两个 
染色体也共享模式‘**01****’， ‘1*01*0***’ 及其他 .） 模式的重要性在于将一定的 
父代信息编码后作为一个单位传递给子代.如果一个模式与一个具有大的目标函数 


2. 选择机制与遣传算子 

培育将导致多个基因改变.选择机倒就是选择用来产生子代的父代的一个过 
程.一个最简单的方法就是以一个正比例于适宜度的概率选择一个父代，而完全随 
机地选择另一个父代.另一方法则是以正比例于适宜度的概率随机地选择每一个父 
代.某些最常用的选择机制将在 3.5.2 节第2部分讨论. 

当为进行培育而从第《代中选取两个父代后，以某一方式合成它们的染色体以 
使来自每一父代的模式遗传给子代，这些子代即为第 * + 1 代的一部分.由选定父 
代染色体得到子代染色体的方法就称为遣传算子 (genetic operator). 

—个基本的遗传算子就是交又互換 (crossover). —个最简单的交叉互换方法就 














染色体 _ 也可黏合剩下的两个片段以合成第二个子代或把它们丢弃.例如，假设两 
个父代是‘100110001’和 ‘110100110’. 如果随机分裂点介于第三个与第四个位点， 
则‘100100110’ 与‘110110001’均是潜在的子代.注意到在这个例子中，两个子代均 
遗传模式 ‘1*01*****’. 交叉互换是遗传算法的关键就是它允许两个候选解好的特 
征相互结合.某些更复杂的交叉互换算子将在 3.5.2 节第3部分讨论. 

突变 (mutation) 是另一个重要的遗传算子.突变通过在某些位点随机引进一 
个或多个在任一个父代染色体相应位点均没有出现的等位基因而改变子代的染色 
体. 例如，如果由上面的两个父代通过交叉互换得到‘100100110’,则一序列突变后 
可能得到 ‘101100110’. 注意到在两个父代中，其第三个基因都是0,则交叉互换仅 
能保证仍保留模式 ‘**0* *****’. 然而，突变能提供避开此限制的一种方法，由此 
也能提升搜索的多样性,并提供避开局部最大值的一种方法. 

突变多应用在培育之后.在一个最简单的突变过程中,每个基因都独立地以概 
率//发生突变，且完全随机地从遗传字母表中选取一个新的等位基因.如果从太 
小，则将错过许多好的潜在 创新； 如果太大,则随着时间的推移,此算法的学习能 
力将降低,这是因为过多的随机波动将扰乱父代适宜度的选择和渴望模式的遗传. 

总之,遗传算法通过生成子代个体来延续，其如下产生第< + 1代.首先，把第 
t 代个体排序且依适宜度选取个体.对这些选取的个体应用交叉互换和突变以产生 
第《 +1代.图 3.6 是一个产生有四个子代个体的简单例子，其中每个个体有三个染 
色体且染色体是二元编码的•在第 f 代，个体‘110’ 的适宜度最高且在选择阶段被 
选定两次.在交叉互换阶段,把所选的个体结成对子且重组每一对以生成两个新个 
体. 在突变阶段，应用低突变率.在这个例子中突变仅出现一次.完成这些步骤就得 
到了新的后代. 











中应用简单遗传算法进行变量选择的图例.应用大小 P = 20的100个子代，对每 
个可能的预测童,如利用二元等位 基因： 进入-删除，则染色体的长度 C * = 27.第 
—代完全由随机选定的个体组成.应用基于秩的适宜度函数,见下面的方程 (3.11). 
用正比例于此适宜度的概率选取一个父代，而另一个父代完全独立地随机决定.应 
用简单的交叉互换进行培育.在每一个位点的随机突变率为1%且相互独立 • 

图 3.7 中的横坐标对应着子代，每一代20个个体的 AIC 都画在图上.所求 
得的最佳模型包含预测量2, 3, 6, 8, 10, 13, 14, 15, 16, 24, 25和26,其 AIC 值为 
-416.95, 它与用随机初值的局部搜索法得到的最佳模型相匹配（表 3.2). 此图明确 
地说明了达尔文的适者生存： 20个随机选定的第一代个体很快就凝聚成三个有效 
亚种,它们中的最优者将慢慢地绝对超越其 他的. 最优模型首次在第87代求得 •口 



° ; 

图 3.7 例 3.7 的遗传算法结果 


3. 等位基因字母表和基因型表示 

对于等位基因的二元字母表是 Holland 在其开创性工作 ([291]) 中提出的，并 
且在最近的研究中非常流行.如用二元染色体，则比用其他选择更容易理解此算法 
的理论结果、各种遗传算子的相对表现和算法的其他变化等. 

对于许多优化问題，有可能构造解的二元编码.例如，考虑单变量函数/(0)= 
100-(19-4) 2 在区域沒 e [ l ，12.999] = [ ai ,02] 中的优化问題.假设我们把 [ ai , a 2 ] 中 
的一个数表示成 

«i + (^ Y ) decimaJ (6), (3.9) 

其中6是一个 d 个数字的二进制数，函数 decimalO 把2进制数转化成10进制数. 
如果要求精度有 c 个小数位，则选取的 d 必须满足 

(02 - Oi )10 c ^ 2 d - 1. (3.10) 

对于本例,为达到3个小数位的精度,要应用14位二进制数，且由方程 (3.9) 知，对 
应着 0 = 4.000 的 b 为 ‘01000000000000’. 





在某些情况下，例如回归模型选择问题，一个二元编码的染色体可能是很自然 
的.然而，在其他情况下，就如上面所进行的，编码看起来像是强迫的.对于= 
100 - (e - 4) 2 ,染色体1? =*01000000000000 > (0 = 4.000) 是最 优的. 然而，某些从遗 
传上看接近这个的染色体，如 ‘10000000000000’(0= 7.000) 和 *00000000000000 , (^ = 
1.000), 其显型就不接近0 = 4.000. 换句话说，尽管基因型 ‘00111111111111’与 
*01000000000000' 非常不同,但其显型非常接近 4.000. 基因型很类似的染色体可能 
具有非常不同的显型.这样，一个小的突变就可能移至一个完全不同的解空间，一 
个交叉互换产生的子代的基因型可能与任一个父代都有很少的相似之处.为解决 
这一难题,可能需要不同的编码方案或修改遗传算子（见 3.5.2 节第3部 分). 

另一个重要的二元表示就是大小为 P 的置换问题，它类似于旅行商问题.对 
于这样的问题，一个自然的染色体就是整数的一个置换,如 p = 9时的 
1? =‘752631948’. 因为这样的染色体必须服从每一个整数严格地出现 在一个 位点上 
的要求，故将要求对标准的遗传算子做某些改变.处理置换染色体的策略将在 3.5.2 
节第3部分讨论. 

4. 初始化，终止和麥教值 


遗传算法的初始化一般均通过完全随机地从个体中选取第一代而实现. 

子代大小 P 影响算法速度、收敛行为和算法解的质量.如果可能,就要取尽量 
大的 P, 因为它能提供更丰富的用以生成子代的遗传集合，并由此能丰富搜索和预 
防过早的收敛.对于染色体的二元编码，人们建议取 P 满足 C7 $ P < 2C7, 其中 （7 
是染色体长度（间).对于置换染色体,有人建议其范围为 20C([293]). 在 
许多实际应用中，种群大小多在10与200之间 ([477]), 尽管经验研究表明 P 可能 
如30 —样小 ([448]). 

突变率一般很低,多在1%左右.理论与经验研究均建议取 1/C(139 吼另一研 
究建议此比率应正比例于 l/(Pv^)([482]). 尽管如此,人们经常选取与 P 和 C7 无 
关的固定比率. 








一个通用的方法是忽略 /(6?) 的值而仅用它们的秩（[16, 449, 561]). 例如，人 
们可采用 

(3 - n) 

其中 n 是 f ( eP ) 关于后代 t 的秩.此策略选择对应着中等质量候选解染色体的概 
率为 1/P, 而选择其他染色体的概率大概为此中等质量解的二倍，即 2/(J»+ 1). 基 
勺方法吸引人的原因在于它保留了任一成功遗传算法的关键 特征： 基于相对 
声的收敛和由/的实际形式而引起的其他困难 （/ 的形 
([561]). 另外，还有一些不太通用的包括刻度和变换的适宜度函数， 

L [231]. 

选择机制和更新后代 


在前面的3 


,我们仅提到过以适宜度为 
代比应用正比例于适宜度序 


另一个通用的方法I 
法中，先把第 t 代的染色 • 

略少数几个剩余染色体)， 

机分组直到生成足够的父代.为了培育再把父代随机配对.这种方法保证最好的个 
体将培育 尸次， 中等质量的个体将平均培育一次，而最差的个体根本不会培育.三 


)([179, 232, 233]). 

代的染色体随机分成 fc 个不相交的大小一样的子集(也许要暂时忽 
. 体)，选择每一组内最好的个体作为父代.继续进行下一步的随 
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种选择 方法： 比例选择、基于秩的选择和比赛选择在选择压力时,其顺序是递增的. 
只要可以避免过早地陷入局部最优解，高压力一般均与优良的表现相关联， ([15]). 

可以部分更新种群.代沟 （generation gap )G 是指后代被它生成的子代所替换 
的比例 ([126]). 于是, G = 1就对应着一个有完全不同的、不相重叠的后代的标准 
遗传 算法. 另一个极端， （？ = 1/P 就对应着一次仅更新一个子代.此时，一 个穂定 
生一个用以替换最差适宜度（或某一个随机的较 
相对于标准方法，这种过程将展现出更大的波动和 


n'j 丁疋 ，1 

遗传算法.另一个极端， G=l/P| 
态 （steady-state) 遗传算法一次产生 
差相对适宜度）的子代（[ 562 ]).相* 
较大的选择压力. 


当 G < 1时，用有些违背达尔文类推的选择机制有时可以提升算法的表现.例 
如 ，一 个杰出 (elitist) 策略将严格在下一代中拷贝当前最适宜的个体，由此保证当前 
最优解的生存 ([126]). 当 G = 1/P 时，每一个子代都将替换一个从低于平均适宜 
度的染色体集合中随机选取的染色体 （[5]). 

确定性的选择策略被用来消除抽样的波动性 （[17,395D. 我们没有看到消除在 
选择机制中固有的随机性所令人信服的必要性. 

当在生成或更新一个种群时，是否允许在种群中复制个体是一个重要的考虑. 
个体的复制将消耗许多计算资源，并且它有可能歪曲父代选择准则（由于它将导致 
被复制的染色体产生子代的机会更多川 1191). 


它们间的基因序列可以在父代间交换以生成子代.这样的多点交叉互换可改进算法 
的表现08, 163]). 

现有多种把父代基因转移给子代的其他方法.例如,每个子代基因都用从父代 
相应位置的等位基因中随机选择的一个等位基因所填充.此时，父代的相邻基因的 
起点可以是独立的（[4, 527]), 也可以是相关的 （[509]), 其相关长度控制着哪一个子 
代类似一个父代的程度 • 

在某些问题中，不同的等位基因字母表也许是合理的.有人建议用多于两个元 
素的等位基因字母表 （[12, 119, 442]). 对某些问题，采用一个浮点字母表的遗传算 



































继续此过程，经下列 几步： 选择7;选择8;选择6;自城市2和城市3中随机选择 
3;自城市1和城市2中随机选择1;选择2,则可得到子代 *945786312'. 

注意到在每一步中均选择连接最少的城市.作为替代,如果完全随机地选择连 
接，则选择左侧城市的可能性大，由此导致边缘不连续.由于旅行是环形的，故对具 
有较少连接城市的偏好并不会引起子代的任何偏差. 


表 3.4 对于边缘重组的交叉互换，其前三步的边缘表给出了连接到或来自毎个父代中毎个 
等位基因的城市.每一列就是每一步得到的子代染色体 



ill 

城市 ~ H ~ 


5, 6, 1, 3 

6, 1, 2, 8 
8,5 

7,2,4 
2, 3, 8, 7 
8,5,6 
4, 7, 3, 6 
_使闷 


ill 

城市 m 


2 5, 6, 1, 3 

3 6, 1, 2, 8 

4 使用 

5 7, 2 

6 2, 3, 8, 7 

7 8, 5,6 


8 7,3,6 

J _ 使用 

'945* 


在某些问题中，另一个边缘组合 (edge assembly) 策略是非常有效的 ([407]). 
置换染色体的突变并不如交叉互换那么困难.一个简单的突变算子躭是在染色 
体中随机地变换两个基因 ([448]). 另外，也可以随机置换在一个染色体的一个短的 
随机片段中的元素 ([119]). 

3.5.3 初始化和参数值 

尽管传统的遗传算法纯粹由随机个体组成的一代开始，但为了改进随机初值 
的表现，现己有多个用来构造具有更好的或变化多样的适宜度个体的启发式方法 
([119, 448]). 

我们并不要求随后各子代的大小相同.在一个遗传算法的早期后代中，种群适 

宜度经常能得到很快的改进.为避免过早的收致和提升搜索多样性，在算法早期， 

经常希望应用较大的子代大小 R 然而，如果固定在一个太大值,则对于实际应 

用而言，整个算法可能相当慢.一旦算法向最优值迈出重要的一步,则重要改进的 
移动多经常来自髙质量的 个体； 而低质量个体被愈加边缘化.因此,建议 P 随着迭 
代的继续而逐步降低 ([577]). 然而,为了降低收敛速度，一个更通用且有效的方法 
是应用基于秩的选择机制. 

应用反比例于种群多样性的变化突变率也是很有用的 ([448]). 它将刺激提升 







搜索的多样性而减少后代的多样性.从鼓励搜索多样性角度看，现已提出当 
它们允许遗传算法的突变概率、交叉互换和其他参数随着时间的变化而I 
改变([48, 118, 119, 395]). 

3.5.4 收敛 

遗传算法的收敛性质已超出了本章的范围，但某些重要想法还是值得 


关于遗传算法之所以有效的早期分析结果都是基于模式这一概念而展开的 
([231, 291]), 并且它们所讨论的都是具有如下特点的典则遗传 算法： 二元染色体 
编码、选择每一个父代的概率正比例于适宜度、每次均应用简单的交叉互换且把父 
代配对、每个基因的突变是随机的，突变概率为 A 且相互独立.在上述条件下，模 
式定理给出了在 t + 1代一个模式的期望次数的下界,如果它在第 t 代也成立的话. 

模式定理证明，如果在第 f 代中包含某模式的染色体的平均适宜度大于此代中 
所有染色体的平均适宜度，则一个短的低阶模式（即附近仅有少数几个等位基因） 
有利于提髙此模式在下一代中的重现.为了具有相同的期望，一个较长的且/或更 


誦11 ■ 洲 


棋式并列在一起，因此它能提升有利模式的传播. 

最近,关于模式定理和基于它的收敛主张的争议越来越大.传统上强调一个棋 
式传播给下一代的次数和包含在此模式内的染色体平均适宜度是有些误导的.传 
播包含此模式的特定染色体很重要.此外，模式定理过分强调了模式的重要性，事 
实上，它适应于 e 的任一子集.最后，现己充分地注意到遗传算法的成功是由于它 


不明确地同时分配搜索资源给按照模式定义的 © 的区域 ([549]). Vose ([548]) 给出 
了关于遗传算法数学理论的权成叙述， [175, 450】也包括一些有益的处理. 


问 题 


在 3.3 节引入的棒球数据可见本书的主页. 

^着试验、尝试确定可能观测到不同兴趣点的设 


问题 3.1 〜 3.4 研究各种算法设置参数的含义. 
置的精神来解决这些问埋.增加上述用过的运 


行长度以适应所用计算机的速度，并且限制每次运行中计算自标函数的总次数为一个固定数以 


公平地比较各种算法和设置的差异.总结你的比较和结论.用图补充说明你建议的关键点. 














































第 4 章 EM 优化方法 


EM 算法是一种迭代优化策略，它是受缺失思想以及考虑给定己知项下缺失 
项的条件分布而激发产生的.该策略的统计基础和在多种统计问题中的有效性在 
Dempster, Laird 和 Rubin 的研究论文 [130] 中给出了说明.关于 EM 和相关方法 
的其他参考文献包括 [349, 354, 380, 387, 530]. EM 算法的普及源自于它能非常简 
单地执行并且能通过稳定、上升的步驟非常可靠地找到全局最优值 • 

在频率论者的框架中，我们可以想象由随机变量 X 生成的观测数据连同来自 
随机变量 Z 的缺失或未观测数据.我们预想由 Y = ( X , Z ) 产生的完全数据.给 
定观测数据 A 我们希望最大化某似然函数 L (0\ x ). 通常采用该似然函数会难以处 
理，而采用^呤和 Z \( x ,0) 的密度则较容易处理 • EM 算法通过采用这些较容易的 
密度避开了直接考虑 L (0\ x ). 

在 Bayes 的应用中，兴趣通常集中在对某后验分布 f (0\ x ) 的众数的估计上. 
另外,优化有时可以通过考虑除感兴趣的参数0之外的未观测随机变量岭而得到 
简化. 

缺失数据可能不是真的缺 少了： 它们可能仅是简化问題所采取的策略.在这种 
情形， Z 通常称为潜數据.优化有时可以通过引入这个新要素到问题中而得到简化， 
这可能看起来是违反直觉的.然而，本章中的例子和参考文献说明了该方法潜在的 
好处.在某些情形，分析者必须利用他的创造力和智慧来虚构有效的潜 变量； 在其 
他情形，有自然的选择. 


4.1 缺失数据、边际化和符号 


无论考虑 z 为潜在的还是缺失的，它可以看作是通过对某种多到少映射 x = 
M { Y ) 的应用，从完整的 y 中被删除掉了.设 /x(*|0) 和 f Y ( y \ o ) 分别表示观测 
数据和完全数据的密度.潜在或缺失数据的假设等同一个边际化模型，在该模型中 
我们观测到 x 有密度 fx ( x \ e ) = / f Y ( ymy . 注意到给定观测数据下 

Jlv . M { y )= sn ) 

缺失数据的条件密度为 fz \ x { z \ x ,0) = f Y { y \0)/ f x ( x \0). 

在关注于兴趣参数0的后验密度的 Bayes 应用中,有两种方式,通过这两种方 
式我们可以考虑用后验来表示一个更宽泛问题的边际化.第_，把似然函数 L {0\ x ) 
看作完全数据似然函数 L {0\ y ) = L (0\ x , z ) 的一个边际化是明智的.在这种情形缺 


在关于 EM 的文献中，与我们的用法相比较,传统上采用颠倒 JK ■和 y 角色的 
符号.我们脱离传统，在本书的其他各处用 X = x 来表示观测数据. 


4.2 EM 算法 

EM 算法迭代寻求关于0最大化 L0|*). 设表示在迭代 * 时估计的最大 
值点, * = 0,1，… ■定义 Q (9\0^) 为观测数据 X = x 条件下完全数据的联合对数 
似然的期望.即， 

Q(fl|«^) = E{ logL(fl|r)|*,«W} (4.1) 

= E { logMy \0)\ x ,0^} (4.2) 

=j \\ ogf Y ( v \ e )) f Z [ X ( z \ x t e ^) dz , (4.3) 

其中 (4.3) 强调一旦我们给定X = *， Z 就是 F 的唯一的随机部分. 

EM 从开始,然后在两步之间 交替： E 表示期望， M 表示最大化.该算法 
概括如下. 

(1) E 步： 计算 Q ⑼ W). 

(2) M 步：关 于设最大化 Q (岬 (*)) .设綷 +1 ) 等于 Q 的最大值点. 

(3) 返回 E 步，直到满足某停止规则为止. 
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求得所需期望在实际应用中是骗人的，因为我们需要知道给定缺失数据下完全数据 
的条件分布. □ 

例 4.2 (椒花蛾）椒花蛾 (peppered moth), 又叫桦尺蛾 (Biston betularia), 给出了 
一个进化和工业污染的生动故事 [242], 这些蛾子的色彩确信由某单个基因决定，该 
基因具有三个可能的等位基因，我们记为 C, I和 T. 三者之中， C 对I是显性的，而 
T 对I是隐性的.因此基因型 CC, CI 和 CT 导致黑化 (carbonaria) 表型，它呈现 
纯黑色.基因型 TT 导致典型 (typica) 表型，它呈现浅色图案的翅膀.基因型II和 
IT 产生一个称作岛屿 (insularia) 的中间表型,它在外观上变化很广泛,但通常以中 
间色彩杂色而成.这样，有六种可能的基因型,但只有三种基因型在田间工作中是 
可测的. 

在英国和北美，受烧煤工业影响的地区内黑化表型几乎代替了浅色表型.等位 
基因频率在种群内的这种变化被引用为在人类社会可以观测到微进化的—个例子. 
(被试验支持的）理论是“鸟类对于在不同反射的背景下明显不同的蛾体捕食程度 
不同”导致了在时间和地区上对黑化表型有利的选择，在这些地区煤烟的、污染的 
条件减弱了蛾栖息的树皮表面的反射 [242]. 当改善的环境标准减少了污染时，浅色 



见解.此外，这些频率中的趋势也为监控空气质量提供了一个有趣的生物学标志.在 
某足够短的时间段内，等位基因频率的一个近似棋型可以由 Hardy-Weinberg 法则 
建立. 该法则指出在 Hardy-Weinberg 平衡下的某种群里每个基因型的频率应该等 
于相应的等位基因频率的乘积，或者当两个等位基因不同时两倍于该乘积 （以 说明 
在亲代来源上的不确定性) [M, I275]. 这样,如果种群中等位基因的频率为 Pc ， 内和 
PT, 那么基因型 Cl, CT，n，rr 和 TT 的频率应分别为沾， 2 PcP i, 2 Pc pt, pI 








完全数据的对数似然函数是多 项式： 

log /y(y|p)=rice log{Pc} + «ci log{2pcPi} + ncT log{2pcPT> 

+nn log{i^} + «it log{2pipr} + nn log{j4) 

+ logf n V (4-4) 

\ncc «ca «ct nil nrr 'Htt/ 

完全数据并不是都可观测到的.设 Y = { Ncc , Nci , Nar , Ni h N lT , nT T ), 因为我们 
知道 Wrr = n TT , 但其他的频率不可直接观 测到. 为计算 Q(P|P ⑷)，注意到在条件 
no 和参数向童 P (t) =必，#)下， 三 种黑化基因型的潜在数目有一个 三 元多项式 
分布，该分布具有个数参数 n c 及与和 办 Pp ? 成比例的单元概率 • 
对两个典型单元也有类似的结果•于是 （4.4) 中前五个随机部分的期望值为 


E{JVcc|nc.m,nT,P (t) } = «<§3 = 
E{JVci|nc,ni»nT.P (0 } = "cr = 


E{JVcr|nc,ni,nT,p (t) } =«ct 


E{iVnlnc,»i,nT,P (t> } = "i?= 
E{NiT\nc,ni,rvr,p w } = «!?= 


(Pg)) a + ?PW+2PW 

2«c P ^ 

(pg ) ) 2 + 2 P «rf ) +2 P g> I 4 t > ， 

2n c pW p y 

(pg ) ) 2 + 2pg)^ + 2 P gp¥ )， 

niCpj 0 ) 2 


(ri 0 ) a + 2p! t) p¥ ) 


Sw 


(Pi 0 ) 2 -* 

最后，我们知道 nrr = nr ，其中 n T 是观测到的.似然函数中的多项式系数有一个 
条件期望，比方说 ^ncnLTvr.p^), 它不依赖于 P. 于是，我们发现 

Q ( p \ p W ) =嗯 log{j^} + ng； log{2p c pi} 

+n 势 log{2j>cPT} +n|{ } log{rf} 

+*4t log{ 2 PiPr} + n TT log04-} + fc(nc, «i, nr,P (t) )- (4.10) 

注意到 pt = 1 - PC - Pi， 关于 Pc 和 Pi 求导得 

_ 2n^ + ng； + ng) _ 2nft+H _ 


dQ ( p \ p ^) 

dpc 

dQ(plP (t >) 





表 4.1 的后三列给出了收敛性的诊断.相对收敛准则 

— _ 

概括了由一次迭代到下一次迭代在 pW 上相对改变的总量，其中 1NII = (z T z)V2, 
为了说明，我们还给出了 和类似的量 D, (t) . 这些比值很快收敛到 

常数,从而证实 EM 的收敛速度如 \2.19) 定义的那样是线性的. 口 

例 4.3 (Bayes 后验众数) 考虑一个具有似然 L (0\ x ), 先验/(0)以及缺失数据或 
者参数 Z 的 Bayes 问题.为找到后验众数， E 步需要 


其中最后一个表达式是由这些概率加和为一的约束得到的.如果第 i 次潜在数目 
是真的,黑化等位基因在样本中的个数将会是 Sngj+ng+ngi. 样本中一共有 2n 
个等位基因.这样, EM 更新由设定 p ^) 的元素等于从第*次潜在基因型数目得 
到的表型频率而组成. 

假定观测到的基因型数目为 n c = 85, n, = 196及 nr = 341.表 4.1 说明 
了 EM 算法如何收敛到极大似然估计，约略为= 0.070 84,负= 0.188 74及 
PT = 0.740 43. 找到负的一个精确估计比釦的要更慢，因为似然函数在 PI 坐标 
上较平缓. 

表 4.1 椒花《例子的 EM 结果.诊断置 R ^, £>&和 D [ l) 同文中定义 


I IS0.1760.1760.1760.176 


1 i=i=ii 



, i023787i 
pr33323719719018g =188188 
O.O.O.O.O.O.O.0.0. 

,3339942491837837837837837 
0.J0.0810.071I =0.0700.0700.070 







- E {\ og { L (0\ Y ) mk ( Y )}\ x , 
=E{logL(fl|y)|x,^} + lo gj 


P (4.17) 中的最后一项是一个可以忽略的归一化常数，因为 Q 是要求关于0最 

该函数 Q 通过简单地向极大似然框架中用到的 Q 函数添加对数先验而得 

不幸的是,对数先验的加入通常使得在 M 步最大化 Q 更困难. 4.3.2 节描述了 
多种在困难情况下简易化 M 步的方法. 口 

1收敛性 

为了观察 EM 算法的收敛性质，我们通过说明每个最大化步提高了观测数据 
t 数似然 i(e\x) 开始.首先注意到观测数据密度的对数可重新表达为 

log/jc(*l») = log/y(y|») - log f Z { X ( z \ x ,0). (4.18) 

E{log/jc(*|fl)|*,« ( °} = E{logMy|e)|x,^}- E{log/ Z | X (z|x ) fl)|x,flW}, 

其中期望是关于 Z \( x ,0^) 求取的.于是 

log/x(*|0) = Q(0\e w ) - H(e\0^), (4.19) 

H(e\0^) = E{log/ 勾 x (Z|*，fl)|*，W}. (4.20) 

在我们说明当 0 = 妒时 H(e\0^) 关于取得最大后, (4.19) 的重要性成为显 
为理解此点，给出 

- H(9\e^) =M^Kfz\x(Z\x, «W) - log/anxtzi*, e)\x ,«<*>} 
>-log J fz\x(x\x,0)dz 



















的数学应用中，我们通常求助于最大化 (majorization), 因为我们能通过用 -G (叫 (*>) 
t 化负的对数似然来实现. 

在指败族中的应用 


来最大 A 
4.2.2 


当完全数据被建棋为具有指数族分布时，数据的密度可以写成 f ( y \ e ) = 
Ci(y)c2W ^{沪咖)}，其中0是自然参数的一个向量， *(y) 是充分统计量的一个 
向量.在这种情形， E 步得出 


Q(e\0^) = k + logc 2 (0) + 1 fl T *(»)/ Z| x(*l*，》 ⑴) d 


其中 fc 是一个不依赖于0的童.为实现 M 步，设 Q [ e \ e ^) 关于0的梯度等于零. 
在重新整理各项并采用明显的符号简化进行向量化积分后，得到 


^0) = J a (v)/z|x(*l*,® (t) )d*- (4.27) 


可直接证明= -C2(«)E{ a (y)|0}. 因此， (4.27) 意味着 M 步是通过设妒 +1) 
等于求解 

E{«(y)|0} = J s{y)f^ x (z\x, 心) d* (4.28) 

得到的0而完成.除去将 0W 用代替外,下一个 E 步的 Q 作⑴的形式是 
不变的，且下一个 M 步求解同样的优化问题.因此，指数族的 EM 算法由下面的步 
骤组成. 

(1) E 步： 给定观测数据并利用现有的参数猜测值计算完全数据的充分 
统计量的期望值•令* (*) = E{ a (y)|*，0W} = 1 3( v ) f zl x ( z \ x ,0^) dz . 






sg- = ng,. 前三个充分统计量的无条件期望为 np&2npcpi 和 2 np c pr . 让这三个 
表达式等于上面给出的条件期望并对 Pc 求解构成 p c 的 M 步.三个方程求和给出 
np^c + 2 np c pi + 2np c pr = ngj, + ng + n ^, 它简化为 (4.13) 给出的更新.注意到 
三个概率加和为1的约束, PI 和 pr 的 EM 更新可类似找到. 口 

4.2.3 方差估计 

在极大似然估计框架中， EM 算法用来找到一个极大似然估计,伹并不自动产 
生极大似然估计的协方差阵的一个估计.通常地,我们会用极大似然估计的渐进正 
态性来确保寻找 Fisher 信息阵的一个估计.因此,估计协方差阵的一种方式是计算 


[194] 
些情; 
很困; 
面描3 
是自! 


9) 的二阶偏导数且两边反号得到 

- l u { e \ x ) = -(^'(0^)^ + ff"(tf|w)L=e， (4.29) 

和 H〃 上的擞号表示关于第一个自变量0的导数. 

1.29) 可以重写成 

ix ( e ) = i Y ( B )- i Z \ x (0), (4.30) 

= - l N (0\ x ) 是观测信息，而 iy ⑻和 5^x(0) 分别称作完全信息和缺 
灸积分和求导（当可能 时), 我们有 











如果 iy(fl) 或者 i z (9) 难于解析计算，可以通过 Monte Carlo 方法（见第6章） 
来估计.例如, iy (0) 的最简单的 Monte Carlo 估计为 





其中 c = E(1 - «5i) 表示删失事件的个数.注意到 (4.36) 来自指数分布的无记忆 
性.因此， -Q /, (A|A(*))=n/A 2 . 

-个删失事件 4 的未观测到的结果有密度 / Zi | X (*i|*,A) = Aexp{-A( Z< - 
m . (4.32) 中那样计算 i Z | X (A), 我们发现 



由于 Z* - q 有一个 Exp(A) 分布，该表达式关于 f Zilx 的方差为 

<Z|x(A)= var{Zi - Ci} = C/A 2 . (4.39) 

这样，应用 Louis 方法’ 

ix(A) = n/A 2 - C/\ 2 = U/X 2 , (4.40) 

其中 1/ = !^ 么 表示未删失事件的 个数. 对这个基本的例子,通过直接分析容易验 
证 -i 〃(入|*) = U/X 2 . 口 

2. SEM 算法 

记得前面有屯表示 EM 映射,且有不 动点® 和 （i, j ) 元素等于的 Jacobi 
矩阵 劑. Dempster 等人 [130] 说明在 (4.30) 的术语下 ' 

= i z ^ x [ fi ) i Y { fi )-\ (4.41) 

如果我们将 (4.30) 中的缺失信息法则重新表达为 

S x (d) = [/-iz|x(®)<v(«) _1 ]*v(d), (4.42) 

其中 J 是一个单位阵，并且把 (4.41) 代入 (4.42), 然后将 i x { e ) 求逆可给出估计 
w{fl} = iy(®) _1 (l + ^^) r [ I - 9'( e ) T ]~ l ) . (4.43) 

这个结果是吸引人的，因为它把想得到的协方差阵表示成了完全数据协方差阵加一 

个考虑缺失数据的不确定性的增量矩阵.当结合后面的数值微分策略来估计该增 

量时， Meng 和 Rubin 把此方法称为 扩展的 EM(SEM) 算法 [384], 因为在微分方法 
中，数值不精确只影响估计的增童,协方差阵的估计通常比在 4.2.3 节第5部分描 






的估计如下进行. SEM 的第一步是运行 EM 算法直至收敛,找到最大值 
点 d. 第二步是从0 ⑼ 重新开始算法.尽管可以从原来的起始点重新开始，最好是 
选择更靠近 d 的 

已经这样初始化 SEM 后,我们对 t = 0,1,2, . •开始 SEM 迭代.第 t+1 步 SEM 
迭代通过取一个标准的 E 步和 M 步由 0 ⑷产生 开始. 接着，对 j = 1 ， … ， p ， 
定义私 *)(j) = ^,^+1, . . . ,心)和对 i = 1，…， p， 

= (,44, 


注意 ^ f ( e ) = o . 这完成一步 SEM 迭代. ％(妒 )0)) 的值是通过对 j = i ， …， p 应 
用一步 em 循环到 e ^ u ) 而产生的估计. 

注意到 ^(d) 的 （i, j) 元素等于•当 { 值的序列对 t > %稳定时， 
我们可以认为该矩阵的每一个元素是^确估计的.注意 9 ^) 的不同元素的精 

确估计可能需要不同的迭代次数.当所有元素都稳定后， SEM 迭代停止，得到的 

屯' (d) 的估计用来确定 (4.43) 中给出的 <ir{d}. 

数值不精确可以引起得到的协方差阵稍微不对称.这种非对称性能用来诊断 
原始的 EM 过程是否运行到了足够的稍度，以及用来评定估计的协方差阵的元素 
中有多少位是可靠的.如果(句 T 不是半正定的或者不能数值求逆，也会出 
现 困难； 见 [384]. 建议 变换设 以达到一个近似正态似然，这样能获得更快的收敛并 
增加最终解的精度. 

例 4.6 (椒花蛾 ，续） 来自例 4.2 的结果可以用 Meng 和 Rubin 的方法来补充. 
由 pg> = 0.07 和= (U9 开始，在少许的 SEM 迭代内可得到稳定、精确的 
结果.灸:， W 和奸 的标准误分别是 0.007 4, 0.011 9和 0.132. 两两相关系数为 
cor^cw} = -0.14,cor{pc,^r} = -0.44 和 cor{p,,Pr} = -0.83. 这里， SEM 用来 


. 协方差和相关 
R 率加和为 1. 
••始 SEM 迭代考 


J 和扩展 

这些结果，这是因为估计的概率 it 

在 EM 迭代终止后才开始 SEM 迭代看起来效率不高.一种备选方法是在 EM 
迭代进行时尝试用 


- (t) _ 恥 (处― 1 )，…，咬] 1 )，#，^! 1 )，…，峻― 1 )) 
r « 一 K” 


(4.45) 


来估计 ^(0) 的成分.然而, Meng 和 Rubin 指出该方法总的说来并不会需要更少 
的迭代,首先找到&所需的多余的步数能通过更接近&来开始 SEM 得到弥补，且 
该备选方法数值稳定性较差. Jamshidian 和 Jennrich 调査了对屯或 f 本身数值 
微分的多种方法，包括某些他们认为优于 SEM 的方法 [302]. 






的估计方差.顺便地，々的样本分布的其他特征，比如相关系数和分位数,可以用基 

千 Ub 的相应样本估计来得到.注意, Bootstrap 将 EM 循环潜入到了 B 次 
迭代的第二层循 环中. 当每个 EM 问题的求解由于高比例的缺失数据或高维而变 
慢时,这一嵌套循环将会导致计算繁重. 

4. 经验信息 

当数据是独立同分布时，注意到得分函数是每个观测的单个得分 的和： 


:§ ,,(6 


i ， (®l*i)« ， (fl|*i) T - ^ V {9\ x i ) l , (0\ x i )' T . (4.47) 


这一估计己经在[381，447】的 EM 内容中得到了讨论.该方法吸引人之处在于 (4.47) 
中的所有项都是 M 步的副 产品： 不需要额外的分析.为了解这点,注意到关于 
0 最大化 Q {0\ e ^)- i (9\ x ). 因此，关于0取导数得 

G (咐 = * ， (®l*)le=«<.) - (4.48) 

由于通常在每个 M 步计算，故 (4.47) 中的单个项是可以得到的. 







•舍入误差而不 准确； 


E 测数据条件下完全数据的期望对数似然.我们已经用 
当该期望难以解析计算时，可以用 Monte Carlo 方法来近 


提出第 f 个 E 步可以用下面的两步替代. 

: °)中抽取独立同分布的缺失数据集 ... ,z2 t) . 
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其中1是所有元素均为1的向量， F, 是包含未删失数据和模拟数据 Z ,. =(〜，•••， 
名扣）的第 j 个补齐的数据集, -c t ~ i.i.d.Exp(AW), k = l ,-.., C , 是用来代替 
删失值的.令 Q # (A|AW) = 0且对 A 求解得到 



作为 MCEM 的更新. 

本书的网站提供了 n = 30 个观测，包括 C = 17个删失观测.图 4.2 对比了用 
这些数据估计 A 的 MCEM 和普通 EM 的表现.两种方法都容易求得极大似然估 
计 A = 0.218 5•对 MCEM, 我们用饥⑷= 5 1+ 的0』，其中㈤ 表示之 的整数部分. 
-共用了 50步迭代.两种算法的初始值 均为； = 0.504 2,它是无视删失的所有 
30个数据值的均值. 口 



图 4 . 2 例4. 7 中讨论的删失的指数数据的 EM (实线）和 MCEM (虚线）的迭代比较 


4.3.2 改进 M 步 

EM 算法的吸引力之一在于 Q(«|fl (t) ) 的求导和最大化通常比不完全数据极大 
似然的计算简单，这是因为与完全数据似然有关.然而，在某些情况下, 
即使导出的 E 步是直接了当的， M 步也不容易实施.为此人们提出了多 
种策略以便于 M 步的实施. 


1. ECM 算法 



























在相差一个可加常数下,观测数据对数似然函数为 

K/3,S|« obs ) = IEobs.il- \ f^u oba ,i - M ob s,i) T S ： 1 i li («ob e ,i - Moba,*)- 

这个似然处理起来及最大化都相当麻烦.然而注意到完全数据的充分 统计邏 :是由 
I ： C / ij , i = 1,…， d 和 'ZUijUik, i,As = 1， • • • ， d 给 出的. 因此 E 步等价于在观测 
数据和当前 参数 〆 ' S ⑴条件下求这些充分统计量的期望 • 

现在对 j = l ， …，£^有 

(4.55) 

其中 

a (*)_/ 如果叫 缺失， (456) 

« ' \ «*,, 如果观察到％ =叫 (} 

且 # = E{£7 ij |uob.. < ,^ (t) , S| 4) }. 类似地,对义 * = 1, …， d 有 

E {g 啊卜•，沪 )， s(0 } = + C) ， (4-57) 

其中 

6 g ) = |^. 和 U ik 都缺失, (458) 

且 7 以 = cov {[/ ijt E!*)}. 

幸运的是，# 和嫘 的推导相当直接. U^Kuo^^W ^) 的条件分布 




* — ^01»,«)> 53obs,i — EcroM.iSn^jE^ggj) • 


4) 和嗒£ 
Q(0,si^\: 


. 的值可以从这个分布的均值向量和方差-协方差阵中分别读取.据此， 
t} ,s (t) ) 就可以根据 (4.26) 得出. 

这样就完成了 E 步，我们现在转向讨论 M 步.无论是直接最大化还是参考指 

数族分布的知识，高维参数空间和复杂的观测数据似然都给直接进行 M 步带来了 

困难.但是，在每次 CM 循环中用5 = 2的条件最大化步骤可以直接实施 ECM 策 


把/3和 E 分开处理可使 
S (t) , 那么我们可以用加权最， 







关于 /3 最大化 Q(AS|/3 (t) ,S (t) ) 的约束形式，其中 a? = (4\ .. ，4 》 ) T 且5^ 
被当作已知的方差-协方 差阵. 这就保证了 > Q^ l \ 

£W|/3 (t) ，2 (t) ). 这构成两个 CM 步的第一步. 

第二个 CM 步依据于下面的事实，即取 S (t+2 /« 等于 

E{i Ed - Vi” 卜 &沪 +1/2 〉’SW} (4.60) 

可在约束 /3 = /3< t+l / 2 > 下关于 E 最大化 Q(^,53|i9 (t) ,S (t) ), 因为这等同于在必要 
时插入和 *7$ 并计算完全数据的样本协差阵.这样的改进保证 

Q ⑷ (t+1/2), s (t+2/2)|々(t)’ 53(*)) > Q(/3( t+ " 2 )，E(*)1/9 W ，E w ) 

>QC9(*)W ⑴， S(*>>_ (4.01) 

将这两个 CM 步合起来有 (/3< t+1 >,E( t+1 )) = (^(*+1/2),5；(»+2/2))且保证在 Q 函数 
上有一个增量. 

这里描述的 E 步和 CM 循环均可用熟悉的闭式解析结果完成，而不需要数值 
积分或最大化.用上面给出的 CM 循环更新参数以后,我们回到另一个 E 步，再继 
续如此进行.总之, ECM 在下面二者之间交替进行：⑴创建更新了的完全数据集 
和⑻用当前的完全数据成分，轮流固定冷和 S 中的某一个为其当前值来序贯估 
计另一个参数. 口 

2. EM 梯度算法 

如果最大化不能用解析的方法来实现，那么可以考虑采用一种类似于第2章 
中讨论的迭代优化方法来实施每个 M 步.这将会产生一个有嵌套迭代循环的算法. 
ECM 算法在 EM 算法的每次迭代中插入 S 个条件最大化步骤，这也会产生嵌套 
迭代. 

为避免嵌套循环的计算负担， Lange 提出用单步 Newton 法替代 M 步，从而可 
近似取得最大值而不用真正地精确求解 [347]. M 步是用由 

« (<+l) = fi (<) - ⑷ ( 咐 (*))| 知 ㈣ (4.62) 

= 0 (t) - Q ，， (®|® (0 )- 1 | e=e(O l , (0 (t) |*) ) (4.63) 

给出的更新替代的，其中 i'(〆 ㈤ 是当前迭代得分函数的估值.注意 （4.63) 是由 
4.2.3 节第4部分中最大化 Q{0\0 W )- l{0\x) 的结论得来的.这种 EM 梯度算 
法和完全 EM 算法对》有相同的收敛速度. Lange 讨论了保证上升的条件以及用 
以加速收敛的更新增量的缩放比例.特别地，当 y 是有典则参数0的指数族分布 
时,可以保证上升而且此方法与 Titterington[538] 的方法相对应.在其他情形,可以 











缩小步长以保证上升（如在 2.2.2 节第1部分所讨 论). 但是增加步长可以加速收敛 • 
对有髙比例缺失信息的问题, Lange 建议考虑步长加倍 [347]. 

例 4.9 (椒花蛾，续）接例4.2,我们对这些数据应用 EM 梯度 算法. 可直接得出 


d 2 Qy)) 2, 

d 2 Q(p|pW) 2^+nff + nff 2n^. + lt W +n W 
辦 _ P? (1-J»c-Pi ) a ， 


图 4 _3 显示了从 Pc = Pi=Pr = l /3 开始的 EM 梯度算法的步骤.步长减半以 
证上升.第一步的方向多少有些错误，但在后续迭代中梯度步灘很直接地上升. 
图也给出了普通 EM 步驟以作对比. 



图 4.3 EM 梯度算法（长 划线） 采用的 步骤. 普通的 EM 步驟用实线表示.也给出了后面章 
节两种方法 （ Aitken 和拟 Newton 加速）的步骤,见 图示. 观测败据的对数似然用灰 
度显示，淡阴彩对应于髙似然.所有的算法均从 pc =w = 1/3 开始 






1. Aitken 加速 

设 4 m 15 是由标准的 EM 算法从⑴得到的下一次迭代.回顾最大化对数似 
然的 Newton 更新为 

9 (t+i) = 0 W _ |»(©(0| a .)-i|/ (e (t)| a .) < (4.67) 

EM 框架建议找一个 l\0^\x) 的替代.在 4.2.3 节第4部分我们注意到 I'pWla!) = 
趴郇 ⑴) L=〆 将 C 在卹附近展开并代入啦 i 1 ) 得 

奶叩⑷《 奶咐 (叫知糾_ -》( 0 )， (4-68) 

其中在 (4.31) 中定义•由于 0^ 关于最大化了 Q{e\e^), ( 4 .68)的左 
边等于零.因此 

Q ， («|fl (t> )|^ (t) » M_)(4 义 ” - ⑽). (4.69) 

于是由 (4.67) 我们得出 

fl (t+i) = ^(t) _ (4.70) 
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2.拟 Newton 加速 

2.2.2 节第3部分讨论的拟 Newton 优化方法依据 

0 ( t+D = g { t ) _ (M ⑷广 1 *'⑷⑷ I*) (4.71) 

对关于0最大化 l {0\ x ) 给出了更新，其中 M ⑷是的近似.在 EM 框架 
下，我们可以把 l '\0^\ x ) 分解成一个在 EM 期间计算的部分和一个余项.通过对 
(4.19) 式求二阶导，我们得出在第 t 步迭代为 

，"妒 )|»)=賴㈣)|知沪,_ H ，， (e|« (t) )| d=<sK0 . (4-72) 

余项是 (4.72) 的最后 一项； 假如用近似它,那么把 

M(*> = (咐⑷ )1^^ _ S(*> (4.73) 

代入 (4.71), 可得到 _ 个拟 Newton EM 加速. 

此方法的关键是怎样用 S ⑷近似 H '\ e \ 0 ^). 此处的想法是以 B ⑼= 0为初 
始值,并随着迭代的进行逐步积累的信息.信息是采用一系列的正割条件来积 
累的，正如普通的拟 Newton 方法一样 (2.2.2 节第3部分). 

特别地,我们可以要求满足正割条件 

B (t+D o (0 = b (0 | (4.74) 

其中 

0 (t) = d («+D_ fl (t) > (4.75) 

且 

* ( ° = H ， («l® (t+1) )| e=e< , +> ，- 贫(咐㈣ ))L =e ⑴. (4-76) 

由更新方程 (2.49), 为满足正割条件我们可以设 

B (t + i) = B (t) + c W”W (v (*>)t ， (4.77) 





乎没有上升的一步.一般说来，拟 Newton EM 过程表现得和其他拟 Newton 法相 
似： 它们都会有一个超越解或收敛到一个局部极大值点而不是局部极小值点的趋 
势.通过合适的预防措施，此算法在这个例子中快速而有效. □ 

拟 Newton EM 在第 i 步需要求的逆. Lange 等人描述了一种基于由 
M W 近似的拟 Newton 方法，此法依赖于逆切更新[349, 350]. 除避免 
矩阵求逆的繁冗计算之外，当 M 步可解时，对和这样的更新可以完全用 
V ( e ^\ x ) 和普通 EM 增量表示. 

Jomshidian 和 Jennrich 详细阐述了逆切更新法并讨论了更为复杂的 BFGS 方 
法 [301]. 他们还给出了对多种 EM 加速算法的实用调査并且比较了这些算法的效 
果.在某些例子中，他们的某些方法比上面给出的方法收敛得更快.他们在一篇相 
关的文章中给出了 EM 的共轭梯度加速法 [300]. 

问 题 

4.1 回顾例 4.2 给出的椒花蛾分析.在田间，由于翅膀的颜色和斑点的变异，区分岛屿和典型 
这两种表型比较困难.除了这个例子提到的622只椒花蛾,假设科研人员收集的样本实 
际上包括= 578只更多的蛾子，且己知它们是岛屿或典型但不能确定各自的精确表 
型. 
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(b) 应用此算法求出极大似然估计. 

(c) 用 SEM 算法估计知，负和和的标准误及它们两两之间的相关系数. 

(d) 用自助法估计如，负和和的标准误及它们两两之间的相关系数. 

(e) 对这些数据实施 EM 梯度算法.用步长减半的试驗以确保上升，并用其他的步长缩 
试验以加速收敛. 

这些数据实施 Aitken 加速 EM 算法.使用步长减半 • 

这些数据实施拟 Newton EM 算法. 比较步长减半和步长不减半的表现. 

1 (e), (f) 和 （g) 中三种变型的有效性和效率.用步长减半以确 
司的初始点作比较.作出类似于图 4.3 的图形. 

4.2 流行病学家对研究冒 HIV 感染风险的个体性行为感兴趣.假设1 500名男同性恋者被 
调査并被询问在过去的30天里每人有多少次危险性行为 .令叫 表示回答有 i 次危险 
性行为的人数,这里 i = 1,…，16.表 4.2 列出了他们的回答. 


表 4.2 回答有相应次数危I 


险性行为 


i 见问鼉 4.2 


109 95 73 59 


ft 很差.假设这些人可 


Poisson 棋型拟合这些败据的效果 ft 
•一组人,无论出于什么 
于这一组的概率为 a . 

个体属于第二组的概率为/3,他们声称有典型的行为.这些人的回答是真实的，且假 
定他们进行危险行为的次数服从参数为 #1 的 Poisson 分布. 

最后，个体厲于髙危险组的概率为1 - 汍这些人的回答是真实的,且他们进行 
危险性行为的次数服从参数为 A 的 Poisson 分布. 

棋型的参数为 a , 汍 M 和入•在 EM 的第 t 次迭代中，我们用0 ⑷ = 

\ (t) ) 表示当前参数值.观测数据的似然为 


* n^(«)/ 







他们对应于有*次危险性行为的人属于各组的概率. 
⑷说明 EM 算法可给出如下 更新： 



用任一可用的方法估计所估参数的标准误和它们两两之间的相关系数. 

书的网站里有从 AT 3 ( m ,S) 分布抽取的50个三维数 据点. 某些数据点在一个分 ft 或 
个分量上有缺失值 . 50个观«值里只有27个是完全的. 

^导出 M 和 S 联合极大似然估计的 EM 算法. 最容易想到的是多元正态密度扃于指 







10.24 4.56 9.42 (4.55) (4.15)_^64_(10.23) 

用密度函数为 /(x) = abx t - , exp{-aa: 6 }(x>0) 且参数为 a 和6的 Weibull 分布 
对这些数据建祺.第2章的问题 2.3 曾对这类棋型给出了更多的细节.构造一个 EM 算 
法来估计 a 和 6. 因为 Q 函数包含不可解析求出的期望，有必要时采用 MCEM 策略. 
MR,Q 的优化不会是完全可解析的.因此必要时结合对各参数条件最大化的 ECM 策 
略,并运用一维的类 Newton 优化.过去的观测表明 （a,6) = (0.003,2.5) 是一个 合适的 
初始点.讨论你推导的过程的收敛性和得到的结果.与采用二元拟 Newton 方法直接最 
大化观测败据的似然相比，你的方法的优缺点是什么？ 

隱马尔可夫模型 (HMM) 可以用来描述一个未观测（隐性）的离散状态变量的序列 H = 
{Ho, - - ,H n ) 和一个与之对应的观测变量的序列 0 = ( 0 。'… ,O n ) 的联合概串，其中 











浓 进变量和后 
关于这些概率 


根据 P[Hi = h \0 = o , 0 ]= ^ a { i , h ) p { i , h )/ P [0 = o|0], 前进 
算给定 O = o 时状态 h 出现在序列第 i 个位置的概率，以及关子 
的期望也是有用的. 

(a) 说明下面的算法可以用来计算 <»(i，h) 和 0 ( i , h ). 

前进算法为 

• 初始化 £«<0，/0=霄(/0<!(/1，00). 

• 对 i = 0, • • • ， n - 1，令 a(i +1， fc) = a (*» h *) p ( h *> h ) e ( h , Oi+i). 

后退算法为 
• 初始化 

•对 i = 71，… ，l, 令邱 - 1， 

与盲自地在所有可能的状态序列上比，这些算法为求 p【o = 

用的概率提供了非常有效的方法. 

(b) 设 N ( h ) 表示 Ho = h 的次数， N ( h , h m ) 表示从/I转移到 /I* 的次数， 

表示当前状态为 A 时 o 的发射数.证明这些随机变量有如下 期望： 


E{N{h ' h = ^ - P[O = o\0) -， 

啊 ㈣ ' 系。綱. 


(c) Baum-Welch 算法能有效地估计 HMM 模型的参数 【22j. 拟合这类棋型己被证实 
在不同的应用中相当有效,这些应用包括统计遗传学、信号处理、语音识别、涉及环 
境时间序列的问厘以及 Bayes 图网络 (149, 207, 317, 342, 441]. 

始， Baum-Welch 算法可通过迭代应用如下更新公式 进行： 


ir(h) lt+1) = 


E { N ( h )\ e ^} 







E{N(h,o)\e^} 

石 £ E { 释， 。，⑴ }_ 




















对常数 Ay 的某集合成立.这样一来，总积分就可按照复化法则将所有子区间上的 
(5.1) 式求和来近似. 


5.1 Newton-Cotes 求积 

Newton-Cotes 法则是一类简单而灵活的积分方法.在该情形，节点在 
内等距，并且在每个子区间内采用相同数目的节点. Newton-CStes 方法在各子区间 
上用多项式近似代替实际的被积函数.选取常数如使得 EAijfix ^) 等于某插 
值多项式在 [x it x i+l \ 上的积分值,而该多项式与/在该子内节点处的值相等. 
下面回顾一下常见的 Newton-Cotes 法则. 

5.1.1 Riemann 法则 


考成 m = 0的情形.假设我们定义: tj) = Zi, 且如= a：i + i-x«j. 简单 Riemann 
法则实际是在每个子区间上用某常函数 n Xi ), 来近似/,该常函数的值等于/在 
区间上某点的值.换句话说， 

/(x)dx«£ <+1 f( Xi )6x = (x i+1 (5.2) 

复化法则将 n 个这样的项加和就给出区间沁，&】上积分的一个近似值. 

假设而等距，这样每个子区间有相同的长度 h = (b-a)/n. 于是我们可以记 
Xi = a + ih t 且复化法则为 


J f(x)dxahj2 


f{a + ih) = A(n). 


(5.3) 


如图 5.2 所示，这对应于初等微积分中学过的 Riemann 积分.此外,对子区间 
的左端点并无特别对 待：在 （5.2) 中我们也可以用 f(x i+l ) 代替 /(*,). 

由可积函数 Riemann 积分的定义知，当„ — oo 时，由 (5.3) 给出的近似值收 
敛到积分的真实值.如果/是一个零阶多项式（即常函数)，那么/在每个子区间 

上是常数，这时 Riemann 法则是精确的. 

当使用复化 Riemann 法则时,值得对子区间数的一个递增序列 n fc , fc = 1,2, • • • , 
计算一列近似值 R(n k ). 那么， R(n k ) 的收敛性可以使用第2章讨论的一个绝对或 
相对收敛准则来监控.采用 n fc+1 = 2n fc 是特别有效的，这样在下一步可将对应于 
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图 5.2 Riemann 法则、梯形法则和 Simpson 法則在子区间 [xi,x i+ i] 上对 /( 实线）的近似 
(虚线） 

例 5 .1 (阿尔茨海默 （Alzheimer) 病）阿尔茨海畎病是一种表现为进行性智力衮 
退特征的疾病.表 5.1 给出了 22位阿尔茨海默病人的数据.在连续五个月中的每 
个月里，要求患者回忆先前给出的某标准列表中的单词，并记录每位患者回忆起的 


人感兴趣的研究是随着时间的推移记忆力能否提髙.这些病人的数据（以及25个 
控制病例）可以在本书的网站上找到并在丨1341中有进一步的讨论. 











一个协变量 向量： 除了截矩项外只有月份用作预测变量.令卢 = Cflo 0l ) T 为对应 
于 * 的参数向量.这样我们得到均值的模型为 


Ay =exp{a^)3 + -/<}， （5-4) 

其中％ 是服从 N(0,o^) 的独立随机效应.这个模型允许对每个患者来说 Ay 在对 
数尺度下有单独的偏移，这反映了患者之间在单词个数上可能存在本质差异这一假 
设.这是合理的，比如，如果治疗开始前患者的基本状况变化多样时. 

在该棋型下，似然函数为 

L{fi,a^\y)=J[J [ 付》 ;0,0 只 /( 糾 |Ay)]d7< 

= n^()9.^lw). (5.5) 

其中是 Poisson 密度， ^(7i；0,^) 是均值为0,方差为#的正态密度函 
数， y 是所有己观测的响应值的一个向量.因此,对数似然是 

iG3,«^|y)=£w^|y), (5.6) 

其中“ 表示第 i 个患者的数据对对数似然的贡献. 

为极大化对数似然，我们必须将 i 关于每个参数求导并求解相应的得分方程. 
由于方程解不能解析得到，这将需要一个数值求根方法.在该例中，我们只看了该 
整个过程的一小 部分： 对特别给定的参数值和单个 i 和 fc， 如何求解对于在 
求根过程的每次迭代中试探的参数值,这种求解将重复进行. 

令 i = l,fc = 1. 关于每月变化率参数的偏导为餘= ^/Lr , 其中 la 在 （5.5) 
中隐定义.此外， 


爱 = 長 / 卜 (w o ,4>n/(w#M d71 

=/ 去 [ 於 ( 71 ; 0,<T ^n f(.yij\^i)}^n 




1.887 610 059 597 80 

1.728 903 544 019 71 

1.728 890 467 491 19 

1.728 890 386 086 21 

1.728 890 267 840 32 

1.728 890 184 009 95 

1.728 890 135 515 48 

1.728 890 109 597 01 


假定，在优化的最前面一步,我们从初始值/3 = (1.804,0.165) 和4 = 0.015 2 
开始. 这些开始值是通过简单的探索分析得 到的. 用々和4的这些值，我们在 

(5.7) 中寻求的积分有如图 5.3 所示的被积函数.积分范围是整个实线,而我们迄今 

只讨论了闭区间上的积分.可以采用变换来得到一个在某有限范围上的等价积分 
(参见 5.4.1 节)，不过为了方便此处我们在范围【-0.0 7 ,0.085]上积分，因为被积函 



图 5.3 例 5.1 寻求对该函数进行积分,该函数来自阿尔茨海 JR 病治疗者数据的 一个广 义线性 
混合棋型 

表 5.2 是一系列 Riemann 近似的结果以及运行的相对误差.相对误差度量了 
新估计值相对于原估计值的变化率.当这些误差小于某预先给定的容许阈值时，迭 
代近似策略停止.因为这个积分很小，故相对收敛准则要比绝对准则更直观. □ 

表 5.2 使用具有不同子区间数的 Riemann 法则得到的（5.7> 式积分的估计.所有的估计 
值都乘了因子10 8 .在某相对收敛准则中使用的误差在最后一列给出 


子区间败 i ~ if 相对误差 


0070000000001000000 

- 0.«1 三 








[* i , a ： i + i ] 内的所有节点 
插值多项式. 

这些多项式是简单近似 


则函数 Pi{x) = E /(*«) py (*) 是—个 m 阶的多项式并且在 
值 /. 图 5.2 显示了 m = 0,1，2时的这种 


J /(*)d»«J^ + Pi(x)dx 

=S/(4)jr + Pii(*)da! 


的基础，其中4 这种近似方法使用多项式积分代替任意函数 

/的积分，当每个子区间上有 m 个节点时，作为结果的 ft 化法则是 f"f(x)dx * 

- 

取 m = 1,® S ) = x u x il — 就得到了梯形法则.这时， Pio(x) = Xi ~ x ^\ » 

阳⑻ = i ^：. 对这些多项式进行积分就得到 A i0 = A il = ( i i+ , - *0/2 -因此， 
梯形法则等于’ 


^ Xi+1 ~ Xi j (f(xi)+/(x i+1 )). (5.12) 

当 [ a , 6] 被均分为长度为 ft = (&- a )/« 的个子区间时，梯形法则估计为 

£ /(*)dx« \f{a) + h ， ^f(a + ih) + = f(n). (5.13) 

该近似法名称的由来是因为在每个子区间内 / 之下的面积可由梯形的面积近 
似得出，如图 5.2 所示.注意到/在任一子区间内是被一阶多项式（即一条线段）近 

似得到的，且该多项式在两点处的值等于/的值.因此当/本身是 fa , 句上的一条 

线段时， f ( rx ) 是精确的. 
















于前面的方法. 


表 5.4 使用具有不同子区间败的 Simpson 法则得到的 （5.7) 式积分的估计.所有的估计 
值都乘了因子10 6 .在某相对收敢准則中使用的误差在最后一列给出 


子区间数 

估 计 

相对误差 

2 

1.352 182 863 867 76 

1.676 000 194 673 64 

0.24 

16 

1.728 885 519 905 00 

1.728 890 064 579 54 

0.032 

0.000 002 6 


1.728 890 082 473 58 




0.000 000 000 000 18 

0.000 000 000 000 014 


如果/在[ 0 ,6]是二次的，则它在每个子区间上也是二次的. Simpson 法则在 
每个子区间上用在三个点上匹配/值的二阶多项式近似/，因此该多项式就是 /. 
于是 Simpson 法则可精确地求二次函数/的积分. 














现在令 F { x 、= j : /(t)dt. 该函数有好的性质，即 F ( Xi ) = 0,F(xi + 2h) = I u 
F \ x ) = f ( x ). 将尸在而处 Taylor 级数展开，并取 a:= 而 + 2fc, 得到 
Ii = 2 hf { Xi ) + 2 h 2 f \ xi ) + !/» 3 /" (的) + |fc 4 / //， (x < ) + 盖 W’( 取)+ •••• (5.22) 

从 (5.21) 式减去 (5.22) 式得到 5i(n) - A = h 6 / w， (a：i)/90 十…= 0(n_ 5 ) •这 
就是 Simpson 法则在单个子区间上的误差.于是在划分的 n 个子区间上，总 
误差是这些误差的和，即注意到 Simpson 法则因此也可精确求三次函数 
的积分. 

5.1.4 一般的 fc 阶法则 

前面的讨论提出了一个一般的 问題： 怎样确定一种 Newton-Cotes 法则使之对 
k 阶多项式是精确的.这就需要常数使得对任意多项式/有 

[ f ( x ) dx = cof( a ) +Cl f («+^)+ - +Cif (a+i^)+ - -+c t /(6). (5.23) 

当然我们可以对 m = *: 参照上面给出的推导求解，不过有另一种简单的方法.如 
果一种方法对所有 fc 阶多项式可精确求积分，那么对一些特别的容易求积分的诸 
如的选择也必是精确的.这样,我们得到*个未知量下的 fc 个方程 



= coa + ci H - 1- Ckb, 




剩下的工作就是求解 q 以得到算法.有时称此方法为待定系数法. 


5.2 Romberg 积分 


一般来说,低阶 Newton-Cotes 方法收敛得慢.不过，在一系列梯形法则估计之 
上，有一种非常有效的方法可提髙收敛速度•令 T { n ) 表示采用等长度/I = { b - a)/n 
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的 n 个子区间对 £ f ( x、dx 的梯形法则估计，如 (5.13) 所示.不失一般性，假设 
a = 0,6 = 1. 那么 

r(i)=|/(o) + |/(i), 
r (2)= i /(0) + i /( l /2)+ i /( l ), 

r (4) = ⑼ + i [/( l /4) + /(1/2) + f (3/4)1 + i /( l ), (5.24) 

等等.注意到 

f (2) = | f ( l ) + i /( l /2), 

f (4) = if (2) + \[ f ( l / A ) + /(3/4)], (5.25) 

等等,提 示一般 的递归关系为 

f (2 n ) = if ( n ) + ^/(« + ( i - l /2) h ). (5.26) 

使用 Euler-Maclaurin 公式 (1.8) 可知存在常数 Cl 使得 

T ( n ) = jf 6 f ( x)dx + Cl h 2 + 0( n ~ 4 ), (5.27) 

于是 

f (2 n ) = J b f { x)dx + ^ h 2 + 0( n ~ 4 ). (5.28) 

所以， 

•) 3 -办) =/> 聲 ‘). (5-29) 

这样 （5.27) 与 （5.28) 的/! 2 误差项抵消了.经过这种简单的调整,估计的精度得以 




注意 (5.30) 也可重新表达为心等于 f M _x 加上右倍的 ( Ti ,^ - 

如果/在上有 2 m 阶连续导数，则上表中第 m 行的元素在 j < m 时有 
误差 T mJ - j : f ( x )6 x = 0(2-^) [103, 328]. 收敛速度如此之快以致于很小的 m 
值就可以满足°需要. 

有必要验证的一点是 Romberg 算法不会随着 m 的增大而变坏.为此，考虑商 


(5.31) 


T U 的误差部分归于近似方法本身，且部分归于计算机舍入导致的数值不精确.只 
要前一种来源占主要地位，如就会随着 i 的增大接近 4:' 然而如果计算机舍入 
误差相对于近似误差来说是主要的，则 Qy 的值将变得不稳定 . 三角形表的列 
可以用来确定商在变坏前接近 P+ 1 的最大的 j. 这时不再霈要通过 (5.30) 计算更 












表的一行更可取.在这种情形，我们将在 i = 9后停止计算,用比前面的任一例子 
更少的子区间和更少的/求值得到一个精确的估计. 口 


表 5.5 使用 Romberg 积分得到的 (5.7) 式积分的估计.所有的估计值都乘了因子10 8 . 
最后两列给出的是正文中讨论的效果评价度量 


1 0 2 3.493 877 516 947 44 

2 0 4 1.887 606 527 137 68 

3 0 8 1.728 901 777 789 65 

4 0 16 1.728 889 584 376 16 

8 0 256 1.728 890 080 320 79 

9 0 512 1.728 890 081 999 67 

-1.606 270 989 809 76 

-0.158 704 749 348 03 

-0.000 012 193 413 49 

0.000 000 360 152 54 

0.000 000 026 559 01 

0.000 000 006 700 22 

0.000 000 001 678 88 

13 015.61 

1 1 2 

2 1 4 1.325 182 863 867 76 

3 1 8 1.676 000 194 673 64 

4 1 16 1.728 885 519 905 00 

0.323 817 330 805 89 


5 1 32 1.728 890 064 579 54 

6 1 64 1.728 890 081 239 18 

0.000 004 544 674 54 

U 

8 1 256 1.728 890 082 554 20 


16.14 

1 2 2 

2 2 4 

3 2 8 1.697 588 016 727 36 

4 2 16 1.732 411 208 253 75 

7 2 128 1.728 890 082 555 87 

8 2 256 1.728 890 082 559 57 

-0.003 520 840 695 91 

-0.000 000 285 208 02 

0.000 000 000 206 04 

-9.89 

12 344.82 


使用 n 个等长子区间的 Simpson 法则所得的估计，则 (5.29) 式的类似结果是 


(5.32) 










如果 </,5)„ ， Ml =0 -则称/和 S 关于 ® 在 [ 叫 6] 上正交.如果/和3还进行了按 
比例缩放，满足 </,/>„,[«, 6 ] = =1，则/和 S 在 [M】 上关于 w 标准正交. 









a < x 0 < -< x m <b 表示，则存在权重 Ao ,- - , A m 满足： 

(1) 4 > 0, i = 0,… ，m; 

⑶ ▲ = 其中 c* 是 p k ( x ) 的首项系数 • 

⑶ jf/bMWd® = 2^/(®*), 其中/是阶数不超过 2m + 1的多项式.也 
就是说， S 方法对任一这样的多项式关于 u» 的期望来说是精确的. 

⑷如果/是 2(m + 1) 阶连续可导的，那么存在$ S (a, &) 使得 

/>w 咖 -g 似 (5 圳 


虽然根据该结果和表 5.6 可以计算出 （m + 1) 点 Gauss 求积法则的节点和权 
重,但是由于潜在的数值不精确，大家一般不愿直接计算.这些童的数值稳定的计 

算可由现有的公共软件得到丨199, 418]. 另外，也可以从像在丨2, 337j 中己出版的表 

里得到节点和权重.其他已出版表的列表在 [120, 534] 中给出. 

表 5.6 中的各选择中， Gauss-Hermite 求积尤其有用，因为它使得积分可以在整 
个实线上进行.正态分布在统计实践和极限理论中的主导地位意味着许多积分是 
光滑函数和正态密度的 乘积； Gauss-Hermite 求积在 Bayes 应用中的好处可在 [408] 
中找到. 

例 5.5 (阿尔茨海默病，续）表 5.7 给出了应用 Gauss-Hermite 求积估计例 5.1 积 
分的结果. Hermite 多项式在此例中尤其适用，这主要因为例 5.1 的被积函数本就 
应该在整个实线上积分而不是在区间 （-0.07,0.085) 上.收敛非 常快： 用8个节点 
时得到的相对误差是 Simpson 法则用1 024个节点时的一半.表 5.7 中的估计值与 
以前的例子不同，因为积分范围不同.应用 Gauss-Legendre 求积并采用26个节点 








变换就是其中之一.比如，考虑 ^Mdx, 它有一个奇点 o. 使用变换 u = 
^得到2 f exp{« 2 }d« 就可以轻易地求得积分值. 

积分 jf 在 [0, M 上没有奇点,但是难以直接由 Newton-CStes 方 

法 求解. 这时变换也很 有用. 令 tx = ¥ _得到 ^exp^/i «X»}du, 它的被积函数 
在[0,司上接近常数.变换后的积分更易可靠地估°计. 

另一种方法是剔除 奇点. 比如，考虑 /^loghii^a^da :， 它有一个奇点0,通 








递归细分那些积分估计尚不稳定的子区间.当被积函数的不良表现限制在一小部 
分积分区域上时这是一种非常有效的方法.另外，这也给出了一种减少为多重积分 
所花工作量的方法，因为大部分的积分区域可由一个非常粗的子区间网格充分覆 
盖. [103, 328, 534] 包括了多种此类方法. 

5.4.5 积分软件 
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本章介绍从某一目标分布/中随机抽取 x 1 ,- -, x n 的模拟.这样的抽样最 
常用于进行 Monte Carlo 积分,该积分是用从积分范围上某分布中随机抽取的一组 
点上的被积函数值对某积分值做的统计估计. 


经由 Monte Carlo 模拟的积分估计在多种背录下有用.在 Bayes 分析中，后验 
iT 以写 成一个 积分的形式，但通常不能解析求得积分值.后验概率也可以写成关 


于后验的示性函数的期望. Bayes 决策理论中风险的计算也依赖于积分.积分也同 
样是频率似然分析的一个重要组成部分.例如，联合密度的边际化依赖于积分.例 


5.1 举例说明了来自某广义线性混合模型的极大似然拟合的一个积分问题.一些其 


他的积分问题将在本章和第7章中讨论. 


除了在 Monte Carlo 积分中的应用，对从某一目标密度/中随机抽样的模拟 


在很多其他情况中也很重要.实际上，第7章专门介绍了 Monte Carlo 积分的一种 
特殊策略，叫做马氏链 Monte Carlo. 自助法、随机搜索算法和许多其他的统计工 
具也都依赖于随机偏差的产生. 

关于在本章中讨论的主题的更多细节可在[91，137,166, 326,334, 357, 366,400, 


456, 466, 468] 中找到 • 


6.1 Monte Carlo 方法的介绍 

在推断性的统计分析中很多感兴趣的量能够表示为某随机变童的函数的期望， 
即 E { h ( X )}. 令/表示X的密度，且 M 表示 h ( X ) 关于/的期望.当从/中取得 
—个独立同分布的样本：^，…，时，依据强大数定律（见第 1.6 节)，当 n — 00 
时，我们可以用样本均值近似 M: 

Amc = J h ( x ) f ( x)dx = n ， (6.1) 

此外，令 w(*) = [ h ( x )- n ] 2 , 并假定 fc(X) 2 在 / 下期望是有限的.那么 Amc 的样 
本方差为 < r 2 /n = E { v ( X )/ n }, 其中期望是关于/求的.类似的 Monte Carlo 方法 
可用 

^{ Amc } = - Amc ] 2 (6.2) 









常强大的工具. 

最重要的是，求积方法很难推广到多维问题上,因为一般的 P 维空间很大.直 
积法产生的#个积分网格很快受限于维数祸根（将在 10.4.1 节讨论)，从而会变得 
更难实现且收敛更慢. Monte Carlo 积分在/的 p 维支撑区域上随机抽取来自/ 
的样本，但并不尝试对该区域的任何系统的探索.因此, Monte Carlo 积分的实施比 
求积法更少受限于髙维问题.然而，当 p 很大时,仍需要一个非常大的样本量以得 
到 Amc 的一个可接受的标准误.当办光滑时,即使 P = 1，求积法也表现最好.相比 
之下， Monte Carlo 积分方法不考虑光滑性.更多的比较在 [166] 给出. 

Monte Carlo 积分用一组从某概率分布中随机选取的点取代了求积节点的系统 
网格.因而，第一步是研究如何产生这些随机点.这个问题将在 6.2 节中解决.等式 
(6.1) 中给出的标准估计的改进方法在 6.3 节中叙述. 


6.2 模 拟 

本节主要讨论不服从常见参数分布的随机变童的模拟.我们称想要的抽样密 
度/为目标分布.当目标分布来自一个标准参数族时，大量的软件可容易地产生随 
机偏差.在某种程度上，这些代码都依赖于标准均匀分布随机偏差的产生.给定了 
计算机的确定性本质,这些抽取不是真正随机的，但是一个好的发生器会产生一系 
列与独立标准均勻变量在统计上不能区别开来的值.标准均匀随机偏差的产生是在 
[171, 198, 334, 455, 456, 468] 中研究的一个典型问题. 

相对于重复均匀随机数产生的理论，我们更关注有好软件的人所面临的实际困 
惑： 当目标密度用软件不易抽样时该怎么办.例如，几乎所有的 Bayes 后验分布都 
不是标准参数族的成员.利用指数族里的共轭先验求得的后验是个例外. 

除缺少显而易见的/抽样方法外还有另外的困难.多数情况下,特别是在 Bayes 
分析里，可能会已知目标密度在仅差一个乘法比例常数下已知.这种情况下/不能 
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不可用，但 F 或者可用或者容易近似，那么可用线性插值得到一种粗糙的方法.用 
A， …，〜的网格横跨/的支撑区域，在每个格子点计算或近似叫= F( Xi ). 然后， 
取 f/ 〜 Unif(0,l), 并在两个最近的格子点间依照 

X = ^lIL Xi + !L^L Xji (6.3) 

«j ~«i Uj-Ui 

作线性插值,其中< t/ C «,•. 该方法并不具吸引力，因为它需要对 F 的完全近 
似，而不管需要的样本量大小，并且它不能推广到多维且比其他方法效率低. 

6.2.3 拒绝抽样 

如 果/⑻ 在至少差一个比例常数下是可计算的，那么我们可以用拒绝抽样从 
目标分布准确得到一个随机抽样.这种方法依赖于一个较简单分布的抽样备选点， 
然后通过随机拒绝某些备选点修正抽样概率. 

令表示另一个密度，由此我们知道如何抽样且因此更容易计算 g(x). 4- e(-) 
表示一条包络，对所有满足/(幻 > 0的 a: 及给定的常数 a < 1,有性质 e(:c) = 
g(x)/a> f(x). 拒绝抽样步驟 如下： 

(1) 取样本 Yr^g- 

(2) 取样本 t/ 〜 Unif(0，l); 

(3) 如果 C/ > f(Y)/e(Y), 就拒绝 K 这种情况下不记录 r 值作为目标随机样 
本的一个元素，而是返回步骤1; 

(4) 否则，保留 r 值.令 x = y, 认为X为目标随机样本的一个元素，然后返 
回步骤1,直到达到所需的样本童. 

用这个算法保留的样本构成了来自目标密度/的独立同分布的 样本； 这里没有引 
入近似.为说明此点,注意某保留样本不大于值!/的概率为 


P [“ y ] = P 卜！ /卜紫] 
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保留V否亂拒绝\且步骤重新开始.任何保留的\都是来自后验的一个抽样. 
虽然不很有效,只有大约30%的备选抽样被保留，但该方法简易且 准确. 口 

1. 压挤拒绝抽样 

一般的拒绝抽样需要对每个备选抽样 y 有一个 f 值•在 f 求值昂贵但拒绝抽 
样却吸引人的情形，压挤拒绝抽样可以改进模拟速度[334, 374, 375]. 

在某些佾形，该方法利用—个非负的压拌函數《取代/求值.要使《是一个合 
适的压挤函数，则—定不能在/的支槔上的任一处超过 /(x). 像对一般的拒 
绝抽样一样，也要用到包络 e, 且在/的支撑上有 e(x)=g(x)/a> /⑻. 

算法如下进行 • 

⑴取样本: Ki. 

(2) 取样本 17 〜 Unif(0，l). 

(3) 如果以 8(V)/e(Y), 保留7值•令X = y ，考虑X为目标随机样本之一， 
然后转到步骤 6. 
















精炼.随着迭代次数的增加，损耗量和/必须被估值的频数都会同时减少. 

令办)= log/(x), 并假设在某（可能无穷的）实线区间上 /Or) > 0.令/是对 
数凹的，满足对/〕 


c 的增加单调递减，但可能有 


算法以在 A : 个点： 处计算 i 和 i' 开始.令 A = {幻，…，办}. 
如果/的支撑延伸到-00,选择心使得/ / (* 1 )>0.同样地，如果/的支撑延伸到 
00,选择 a：* 使得 /< 0 

定义巧上的拒绝包络为 Z 在 T fc 内各点处的切线組成的分段线性上覆篕的指 
数.如果记 Z 的上覆盖为 <，那么拒绝包络是 e*(x) = exp{e^(x)}. 为理解上覆盖 
的概念,请看图 6.4. 该图给出了实线 Z 并演示了 = 5的情况.虚线给出的是分段 
上覆盖 A 它在每个而处与1相切, i 的凹度保证了 ej 在其他各点处处在！之上. 
可以证明在私和 o: i+1 处的切线在 


























































的分布近似.当发现权重的分布过度偏斜时，转换到一个不同的包络或一种完全不 
同的抽样方法可能是明智的. 

因为 SIR 生成了近似独立同分布的来自/的样本 X u …， X n , 我们可以继续 
进行 Monte Carlo 积分，例如像在 (6.1) 中一样用 Asm = E h(Xi)/n 来估计 h(X) 


的期望.然而，在 6.3 节中我们将介绍更好的方法，以使用初始加权重要性抽样和 
其他有效的方法来改进积分的 Monte Carlo 估计. 

例 6.3 (斜线分布）如果 Y = X/U, 其中X ~從(0, 1) 和17 〜 Unif(0,l) 独立，则 
随机变量 y 服从斜线分布.下面考虑利用斜线分布作为一条 SIR 包络来生成标准 
t. 以及反过来利用正态分布作为一条 SIR 包络来生成斜线变量.因为容易 






出现在离原点超过 5 个单位的地方.因此，在这些界限之外，目标的模拟尾部被完 
全截去了.此外，生成的最极端备选抽样在正态包络下的密度远小于在斜线目标下 
的，因此它们的重要性比率极髙.这导致尾部的这些点有充足的再抽样.事实上，由 
SIR 选出的5 000个值中的528个是直方图中三个最小单一值的重复. □； 
例6. 4 (Bayes 推断）假设我们寻找一个来自 Bayes 分析的后验分布的样本.例如， 
这样的样本可以用于提供后里 


计.令 m 表示先验， L(0\x) 表示似然,那么后验为 f(0\x) = c/(a)X(0|x), 其中常 


















Xi ) 表示一个 p 维变量X = (Xi ，…， X p ) 的前 i 个坐标，且考虑由 

/(*) = /(*1)/(*2|*<1)/(* 8 |*<2) - /(x p |*<p-i) (6.19) 

给出的目标密度的分解.用同样的方式分解包络 P 得到 

,/ •, _ /(gl)/(g2|g$l)/(g3|a?g2) - - - /(gp|g$p-l) 2m 

K } ~ ■ ■ g(x p \x^ p -y) ^ 1 

作为未标准化重要性权重的表达式.注意到该式建议从 3(*0, g(x 2 \x^), 5(® 3 |*< 2 ) 
等中序贯抽取X的分量.在这种情形，考虑令 w^) = f( Xl )/g{ Xl ), 并对 i = 
2，. ..，^应用递归表达式 


(6.21) 

来找到«;；(*^) = «.*(*). 等式 (6.21) 看上去会提供一种每次一维来累积总体重要 

















然而，假设我们能构造可以合理近似的边际密度 f(x^) 的密度，其中 
i = 1，…， P •令 {/(*<!),•••, /(*分)} 是近似 {/(*<!), •••, /(*々)} 的任一边际密 
度序列，满足 ；(*< P ) = /(*) .那么 Hx^x^) 的一个近似， 
虽然是潜在粗糙的一个.不过我们可以在 (6.21) 的思想下用/函数来重加权来自 
g 的条件形式的序贯样本，而避免对的依赖. 

定义 及 

= T( ~—— r), (6.22) 

其中 i = 2，...，p. 那么 

n «<(*«) = = w* (as). (6.23) 

这样我们可以用如下的算法来生成 9 的一个样本和相应的重要性 权重： 

(1) 通过从 p(xi) 中抽取 A 并令 w^Xi) = /(Xi)/p(^i) 及 i = 2来初 始化； 

(2) 给定 X^-! = x^-u 抽取 Xi-sCxilx^-i); 

(3) 令 X Ki = (X^-uXi ), 并定义 

(6.24) 

(4) 增加 i 并返回步骤 2, 直到 A： 的所有 p 个分量都抽取出来. 

这些步骒结束后，X = X&及 w>(X) = u;；(A- <p ) 构成了 s 的一个序贯生成的样 
本和一个重要性权重,该权重对关于目标/的推断做了修正. 

注意到在 (6.24) 中近似函数/只出现在比率中.因此,/仅需在差一个比例常 


当/能用来改进普通的重要性抽样得到的总体包络时，该方法的需求最为显 
W 如,对某些 i， 对/ 下不 的边际或条件分布的了解可以用来改进样本的生成. 
，当部分生成的样本点非常差以使得完整样本会有可忽略的重要性权重时，可 
:测局部权重以进行修正. 

实施序贯重要性抽样的其他细节,包括对逐渐减少的局部权重的修正，在丨336, 
358] 给出.在抽取稀疏列联表这一难题上的一个特别吸引人的应用在1叫中 


6.3 方差缩减技术 

h(x)f(x)dx 的简单 Monte Carlo 估计为 /xmc 


: i), 其中变量 



X U …， X n 是从 / 中随机抽取的.这种方法直觉上很吸引人，因此我们更加关 
注从/生成样本的方法了.然而在某些情况下，可以得到更好的 Monte Carlo 

这些方法仍基于平均化 Monte Carlo 样本序 


它们采用了! 

S 有更小方差 


irlo 估计 • 
抽样方法 
占计. 


6.3.1 重要性抽样 

假设我们希望估爿 
n/6 个1,真实概库 

该估计的方差是 5^. 要得到具有某变异系数如5%的一个估计,我们应该预计要 
掷2 000次. 

为了减少所需的投掷次数，考虑将点数为2和3的两面用点数1的面来取代 
以偏置骰子.这样掷出一个1的概率便增加到了 0.5, 但我们不再从一个公平的骰 
子提供的目标分布中抽样了.为了修正这一情况,我们设掷出1的每次投掷的权重 
为 1/3. 也就是说，当掷出1时X = 1/3,否则X = 0.那么 K 的样本均值的期望 
就是1/6,该样本均值的方差是丄.对该估计，如果要得到5%的变异系数，我们 
预计只要掷400次. 

这一改进的精度是通过提离关注事件相对于它在原始 Monte Carlo 抽样框架 
下的发生频率而得到的，因此能更精确地估计它.用重要性抽样的术语，掷骰子的 
例子是成功的，这是因为一个重要性抽样分布(对应于掷有3个1的骰子）用于对 
目标分布（适合于公平骰子的结果）下得到较低概率的状态空间的一部分进行过抽 
样.重要性加权修正了这一偏置且能给出一个改进的估计.对于非常罕见的事件， 
极大地减少 Monte Carlo 方差是可能的. 

重要性抽样方法基于这样的原则：即 KX) 关于密度/的期望可以写成如下 
替代的形式 

M = f M*)/(*)d» = / h(x)^g(x)dx, (6.25) 


J h(x)f(x)dx //»(*) 鑛 〆 a 


/ /⑷鈿 / 


^是另一个密度函数，称 
等式 (6.25) 建议用来估讨 
t 同分布的样本 Xi ■■■ ,Ji 


) 方法 是：从 s 中抽取 









p w *{ Xi ) = f ( Xi )/ g { Xi ) 是未标准化权重，也称为重要性 比率. 为了便于使用 
与法,从 g 中抽样以及计算/ 一定要简便,即使在从/中抽样不容易时_ 

等式 （6.26) 建议从 0 中抽取独立同分布的样本 X lt --, X n 并采用估计 


江以使用，就像在 Bayes 分析中. 


要选择函数3使得仅当 /»(*) 非常小时 f ( x )/ g ( x ) 较大.例如，当 h 是一个仅对某 
非常罕见的亊件等于1的示性函数时，我们可以选择能使这个事件发生更加频繁 
的 g 来抽样,而却无法保证充分地抽出 /»(*) = 0的那些不感兴趣的 结果. 该方法 
在对估计某小概率感兴趣的情形很好用，例如估计统计功效、失效或超越概率，以 
及组合空间上的似然，这样的空间常随着遗传数据而出现 • 

有效样本量这一非正式度量可用来度童采用包络5的重要性抽样方法的效率 • 
当/准确已知并像在 (6.27) 中那样使用未标准化权重时,有效样本童是 

其中是 w '( Xi ) 的样本方差.当/在仅差一个比例常数下已知且像在 
(6.28) 中那样使用标准化权重时，我们可用 

^ /)= l + cv^)T (6 . 30) 

其中 cv{«»(X)} 是标准化重要性权重的样本标准差除以它们的样本均值.有效样本 
量是 P 与/有多大差别的一个度量.它可以解释为重要性抽样估计中用到的 n 个 
加权抽样相当于 N { g , f ) 个准确来自/并用于简单 Monte Carlo 估计的未加权独 
立同分布的样本 [336, 357]. 








使用未标准化权重还是标准化权重的选择依赖于几个考虑 因素. 首先考虑 (6.27) 
中用未标准化权重定义的估计令 #) = /!»•(*) .当 X u …， X n 是来自 
9 的独立同分布的样本时，令矿和 f 分别表示和 t ( Xi ) 的均值.注意 
E{®*} = E{w*(X)} = 1. 现在， 

E{A?s} = I = (6.31) 

且 

var{Ar s } = ^^var{t(X j )} = ivar{t(X)}. (6.32) 

因而 A? s 是无偏的，其 Monte Carlo 标准误的一个估计是 i(Xx), ••- ， t ( X n ) 的样本 
标准差除以 n. 

现在考虑在 (6.28) 中定义的采用重要性权重标准化的估计洳 s . 注意到 Ais = 
i / m \ Taylor 级数近似得到 

E{Ais}=E{t[l - (w*-l) + (tD*-l) 2 +-]} 

= E{f- (f-/i)(u>* -1) - 1)+ t(tD* 一 l) 2 + … } 

= /i-icov{t(A-),w*(JT)} + ^var{ti»*(Jf)} + 0(l/n a ). (6.33) 

因而，重要性权重的标准化在估计 As 上引入了一个微小的偏差.这个偏差可以通 
过用 Monte Carlo 抽样得到的样本估计替换 (6.33) 中的方差和协方差项而估计；参 
见例 6.8. 

Ais 的方差可类似得到 

var{Ai S }=^[var{*(X)}+M 2 var{t«*(X)}-2/iCOvWA：)，w*(X)}l+C?(lA» 2 ). (6.34) 

另外, Ais 的一个方差估计可以通过用 Monte Carlo 抽样得到的样本估计替换 (6.34) 
中的方差和协方差项而计算得到. 

最后，考虑 A〖 s 和 A IS 的均方误差.结合上面得到的偏差和方差的估计，我们 

发现 




权重的多种使用方法 • 

采用重要性权重是 SIR 算法的回顾 （6.2.4 节),值得将細的估计性质与 SIR 
抽样的样本均值的性质作一下比较.假设具有相应权重 , w ( Y m ) 的—个 
初始样本 y a ,... , Y m 被重抽样得到《个 SIR 抽样&，…， X„, 其中 n < m. 令 
Asm = * E h ( Xi ) 为 M 的 SIR 估计. 

当关 i 1 点限制在 /x 的估计上时，重要性抽样估计 ws 通常优于 Asm- 为说明这 


-点，注意到 E {( i slR } = E { h ( X i )} = E { E { h ( X i )\ Y 1 , ■ • •, K m }}=E 


rs，( y ‘） i 


=E{A IS }. 因此 SIR 估计与 Ais 有相同的偏差.然而, Asm 的方差是 
var{Asm} = Efvar^ml^i, 

= E{var{/isiR|y i, 


ymH + varfE^miyi, - ,Km}} 

£^(^*) J 




^var{Ais}. 


每计在牺牲精度下提供了方便. 


这样 SIR 估切 

任何重要性抽样方法的一个吸引人的特点就是重新使用模拟的可能性.相同 
的抽样点和权重可用于计算多种不同量的 Monte Carlo 积分估计.权重可以改变以 





























度估计 M 就需要模拟很多的网络.取而代之,我们可以采用重要性抽样来关注使 

h(X) = 1的 X 的模拟,并通过分配重要性权重修正该偏差.随后的计算采用该策 

略,并使用像 (6.27) 中那样的未标准化重要性权重. 

假设我们通过断掉图 6.8 中的边形成网络结构来模拟 XI…， X ， n , 并假定独 
立边失效概率为 P_ > P. 的重要性权重可以写成 

啊)=(与广(浩等广. _ 

且 M 的重要性抽样估计为 

而 = ^Eh(X;)w(X;). (6.40) 


: 表示所有可能网络结构的集合，^ 


?不连通的结构的子 


vBr(fii s } = ^vaT{h(X：)w-(X；)} 

{E{[h{X；)w^X；)) 2 }- [£{/^>*(尤:)}] 2 ) 

4 ( 奸 •㈤ 产 H 1 -， 6 ⑻) _，) • 

现在，对从图 6.8 得到的一个网络，仅当 6( X ) > 4时发生失效.因此， 

当 p * = 0.25 且 p = 0.05 时，我们发现 t «*( X ) < 0.07. 这种情况下， 



















现在,假设当 _ X ^ 是一个长度为 m -1 的随机向量时所要的结果成立，且考虑 
当 Xi = ，…， X im ) 的 情况. 那么，由假设可知，随机变量 

cov ^ iXi ), h 2{ Xi )\ X im } ^ 0. (6.52) 

取这个不等式的期望,得到 

O^EiEih^Xi^iX^Xim}} - EiEihtiX^X^E^X^Xim}} 

< Eih ^ X ^ Xi )}- B { E { fe 1 ( X i )| X im >} E { E {/ l 2 ( X i )| X im }} (6.53) 

其中 (6.53) 式右侧乘积中项的替换遵循了以下 事实: 对 j = l , 2 , 每个 E { Wi ) P ^»} 
是单一随机自变置 X < m 的一个 函数,且适用于结果 (6.51). 

因此，我们通过归纳证明了 hd ) 和 h 2( Xi ) 在这些情况下是正相 关的； 由 
此可知 M 和 A 2 也是正相关的.我们留给读者来证实如下关键 推论： 如 果知和 
知是 m 个随 机变重 Uu "， U m 的函数，并且如果每个函数在每个自变童上是单 
调的，那么 oov { fci (^ a , htil-Uu - A - C / in )} < 0. 我们从前面的证明中 

可简单推出这个 结果： 重新定义心和/» 2 以构造两个关于它们的自变1：增加的函 
数，这些自变量满足前面的假设.见问题 6.5. 

现在对偶抽样方法变得明显了. Monte Carlo 积分估计 AiW 可以写成 

MX ) = ^ h l ( Fr 1 ( U il ) r - , F -\ U im )) t (6.54) 

其中6是每个 XnU = 1，…， m ) 的累积分布函数且是独立的 Unif (0, l ) 随 
机变量.由于 G 是累积分布函数，它的逆函数非减.因此，只要心在它的自变量 
上是单调的， / iiCFfHl / a ), ••- 在每个上也是单调的 ， j = 

此外 ，如果 U v ~ Unif (0, l ), 那么 1 - C/y 〜 Unif (0, l ). 因此， hi ( U t ) = - 

Un)r - , F ~\1- U im )) 在 _ 自变量上是单调的且与 hriFr ^ Un ), -- ，&(〜)） 
有相同的分布.所以 

MX ) =法 Un ), -, F -^ l - Uim )) (6.55) 

是只的第二个估计,它有与 MX ) 相同的分布.我们以上的分析使我们得出结论 
cov { Ai ( X ), fh ( X )} < 0. (6.56) 

所以，估计 Aas =汍 + Aa )/2 会比 m 的方差更小，并会有大小为 2 n 的一个样本 • 
等式 (6.49) 量化了改进的量.我们在仅产生 n 个随机数的单一集合，并从对偶原理 
得到其他的 n 个的同时实现了这样的改进. 






其中 A 是需要使用者选择的一个参数.可以直接证明 












本方差和协方差估计代入到 (6.59) 的右边可得到 Acv 的一个方差估计. 

实际上， Amc 和通常依赖于相同的随机变量，所以= 1^. 同样，使用 
多于一个的控制变量也是可的.这种情况下，当使用 m 个控制变量时，我们可以 
将估计量写成 Acv = Amc + E - 6 j ). 

等式 (6.59) 表明使用 A</v 代替 Amc 得到的方差缩减比例等于 Amc 和的 
相关系数的平方.如果这个结果听起来熟悉，那么你经敏锐地注意到与简单线性回 
归的一个相似之 处了. 考虑回归模型£{^)|^ = ^} = 0 o + M Vi ), 且有着通 
常的回归假设和估计.则 X = -成且 Amc + A (6 mc -0) = 良 + &. 也就是说，控制 
变量估计是回归线在自变量均值（即在巧处的拟合值,且该控制变量估计的标准误 
















Carlo 估计是 

C=if^Ci, (6.66) 

其中 A , i = 1，…， n , 是从 (6.64) 和 (6.65) 中使用标准正态偏差的一个独立同分布 
的样本& Z „ 模拟得到的. 

因为这个例子中真实的合理价格 E { C } 可以解析计算得到，所以不需要应用 
Monte Carlo 方法.然而,一个欧式看涨期权的特殊样式，称为亚氏、路径依赖或者 
平均价格期权，有贯穿持有期基于基本股票平均价格的盈余.这样的期权对能源和 

商品的消费者是有吸引力的，因为随时间的流逝，他们倾向于接受平均价格.因为 

求平均的过程削减了波动率,亚氏期权也倾向于比标准期权便宜.控制变量和许多 

其他的方差缩减方法对像这类期权的 Monte Carlo 定价在丨 53] 中有研究. 

为了模拟亚氏看涨期权的合理价格，连续 T 次应用 (6.64) 进行到期曰股票值 
的模拟,每次将股票价格推进一天并且记录下那天模拟的结束价格，这样 

s ' ,+,, = s(,, ^{t + ^S}' ( 667 ) 

其中为标准正态偏差序列,《 = ()，••• ， r - i . 当前价格为 s ⑼的股票的亚氏 
看涨期权在 r 日的折算盈余可以定义为 

A = exp {- rT /365} max {0,5 - K }, (6.68) 

其中5 = g 妒 /r 且沪)， < = 是代表平均时刻的期货股票价格的随机 

变量.在 t = 0 时购买的合理价格是 E { A }, 但这种情况下没有己知的解析解.记某 
亚氏看涨期权合理价格的标准 Monte Carlo 估计为 


其中次 像上面描述那样独立模拟得到. 

如果 (6.68) 中的 S 被贯穿持有期的基本股票价格的几何平均所代替,便能找 
到 E {^} 的一个解析解 [324]. 合理价格于是为 

0 = S ^ Mci ) exp |- r ( r + 专) K ^ cy - c ^) exp {- rT /365},(6.70) 
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其中 

ci= i [ log {?} + ( 盖 ) d) + fS C + 忐 )] ， 
" 區 ( 1+ 忐 )]’ ， 

c 3 = l + l/JV, 

金 是标准正态累积分布函数，且 W 是求平均的价格的个数.另一方面，可以采用上 
面描述的同类 Monte Carlo 方法并用几何平均估计某亚氏看涨期权的合理价格.记 
该 Monte Carlo 估计为 $ MC . 

估计 ‘c 构成了 /x 的估计的一个很好的控制变量.令 Acv = Amc+A((9mc-»). 
因为我们预料到亚氏期权的两种合理价格（算术和几何平均价格）是高度相关的， 
故一个合理的初始推测是取 A = -1. 

考虑具有基于持有期算术平均价格的盈余的某欧式期权.假设基本股票的当 


我们重复整个 Monte Carlo 估计过程 


值的样本标准差是 0.010 7,而 /icv 值 


的相关系数是 0.999 9. A 的均值是 -1.021 7,样本标准差是 0.000 1. 利用在每次 
模拟中得到的 A 来产生各个 /UMC, 得到100个 Amc 值的一个集合，其标准差为 
0.000 168. 它代表了在标准误上比 Amc 有63倍的改进. 

6.3.4 Rao-Blackwellization 

我们己经利用从/中随机抽取的样本 X u --, X n 考虑了〆= E{ft(X)} 的估 
计.假设每个兄= ( Xn , X i 2 ) 且条件期望 E { h ( Xi )\ x a } 可以解析求解.为了提供 
MMC 的一个替代估计，我们可以利用 E{/»(X0} = E{E{M^)IU}， 其中外层期 
望是关于的分布求取的. Rao-BIackwellized 估计可以定义为 

Arb = SEEWA)P ^}， (6.71) 

且它有与通常的 Monte Carlo 估计 Amc —样的均值.注意到由条件方差公式， 
var{/iMC> = + ^^{^(^)!^}} ^ var{/iRB} (6.72) 
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成立. 因此, Are 在均方误差方面优于 Amc . 通常称此条件化过程为 RaoBlackwell- 

izaticm, 因为它使用了 R^Blackwell 定理,该定理指出我们可以通过将一个无偏估 

计关于充分统计量取条件化以缩减其方差 [811. 关于对 Monte Carlo 方法的 Rao 

Blackwellization 的进一步研究参见 [84, 191, 431，459, 460]. 

例 6.10 (拒绝抽样的 Rao-Blackwellization) Rao-BlackweUize 拒绝抽样的一般 
方法是由 Casella 和 Robert 描述的 [84]• 在通常的拒绝抽样中,备选样本 K，.. • ，仏 
是序贯生成的，并且其中某些被拒绝.均匀随机变量 H 提供了拒绝决策， 
如果认 > «,*(^),则拒绝4其中 W ( Yi ) = 拒绝抽样在随机次数 Af 

处停止,这时接受了第 n 个抽样，得到 X u … , X n . 于是通常的 Monte Carlo 估计 
^ = E { h ( X )} 可重新表示为 

AMC = ^g (6.73) 

它提出了一个吸引人的可能性，那就是 Amc 能通过使用所有的备选 K 抽样（适当 
加权）而不只用接受的抽样以某种方式得到改进. 

(6.73) 式的 Rao-BlackweUization 产生估计 

, M 

^ = n T , h 0^ M Y )> (6.74) 

其中 ti ( Y ) 是依照 

〜00 = E K 1 {i/i<«*cy；)> 1从巧，…， } 

= P [ Ui < tiT(y*)|M， Y u ---, Y m ] (6.75) 

依赖于 y = …，和 M 的随机量.现在 t M ( Y ) = 1,因为最后的备选抽样 
被接受了.对之前的备选抽样， (6.75) 式中的概率可以通过在已获得的样本子集的 
排列上求平均找到 [841. 我们得到 



其中入是包含 n - 2个元素的 + 的所有子集的集合， 

而 S 是包含《 - 1个元素{1，…， M - 1} 的所有子集的集合. Casella 和 Robert 给 
出了一个计算 U ( Y ) 的递归公式，但它难以执行,除非 n 相当小. 

注意到这里使用的条件变量是统计充分的，因为 Uu ."， U M 的条件分布不依 
赖于 /. Arb 和 Amc 都是无 偏的； 因此, Rao-Blackwell 定理意味着 Arb 比 Amc 有 
更小的方差. □ 
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mcmc 理论及其应用是当今很活跃的研究方向.这里我们的重点在于介绍一 
些基本的 MCMC 算法,这些算法容易实现且有广泛的应用•第8章会阐述几个更 
复杂的 MCMC 技术. 关于 MCMC 方法的全面介绍及指南可参见[64, 82, 91，93, 
460, 537]. 


7.1 Metropolis-Hastings 算法 

Metropolis-Hastings 算法 [282, 391] 是一种非常通用的构造马氏链的方法.这 
个方法从 t = 0开始，取■⑼=*仰，其中 * ⑼是从某个初始分布 9 中随机抽取的 
样本使得满足/(*<°>) > 0. 给定 = * 4 ,下面的算法用于产生 X(* +1 ). 

(1) 由某提案分布 (•!*(*>) 产生一个候选值X' 
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(2) 计算 Metropolis-Hastings 比率 i2 X*)，其中 

风― (71) 
注意丑 (*(*), X*)总是有定义的，因为只有当/ (*(0) > 0且 S (**|*(«) > 0时才 
有 X* = »•. 

⑶根据下式抽取 x(* +1 >： 


I X \ 以概率 min{i? (*(*)， _X：*)，1}， 
i arW, 否则. 


(7.2) 


⑷增加 f， 返回第1步. 

我们将第*步迭代称作产生= *(*> 的过程 • 

我们也可考虑在实现类似 Metropolis-Hastings 算法这样的 MCMC 方法时选 
取多个初始点来检验所得到的输出是否一致•这样的过程也可看作是与最优化算法 
的结合.当提案分布对称，即 9 (* (t) |*_) 时,上述方法就是 Metropolis 

算法[391】. 

显然，通过 Metropolis-Hastings 算法构造得到的链满足马氏性，因为 W+ 1 ) 仅 
依赖于 X(*>. 而这样的链是否是非周期不可约的则取决于提案分布的 选取； 使用者 
需要自己去检验是否满足这些条件.如果经过验证说明其是非周期不可约的，那么 
由 Metropolis-Hastings 算法得到的链具有唯一的极限平稳分布.这个结果看似是由 
(1.44) 式所决 定的. 但是，这里我们连续和离散两种情况都要考虑.然而非周期不 
可约仍然是 Metropoli^Hastings 算法收敛的充分 条件. 这方面的理论可参见[3抑, 


460]. 










可能有一些点在状态空间中取值相同.当取前- 
不是取提案值的时候就会发生这样的情况.由于这些抽样点出现的频率可用于 
修正目标密度和提案密度之间的差异,所以在链中保留这些重复值并在1 
值时包含它们是非常重要的.在大多数应用中，我们都不太可能确定地知 a 
链是否已经收敛到平稳分布,因此一种合理的做法是在计算样本均值的时相 
一些初始的生成值. 

—个具有某些特定性质的提案分布可以从很大程度上增强 MetropoF- 
算法的效果.一个好的提案分布可以在适当的迭代次数内生成能够覆盖平稳分布支 
撑的候选值,类似地，也可生成不被过度频繁地接受或拒绝的候选值193】.: 

与提案分布的延展度有关.如果一个提案分布相对于目标分布来说过于分散,， 
候选值就会被频繁地拒绝，因此导致链箱要很多次的迭代才能足够地探究清楚 
分布的支撑空间.如果提案分布过于集中（比如有非常小的方差),则： 










< W (7,0.5 2 ) + (1 - S)N{ 10 , 0.5 a ). (7.6) 

图 7.1 为观测数据的直方图，其中观测数据可从本书的网站上获得.混合密度在实 
际应用中普遍存在，此时数据可以来自多个总体.假设 J 的先验分布为 Unif (0,1), 我 
们可以利用 MCMC 技术构造一个平稳分布等于5的后验密度的链.数据由5 = 0.7 
的分布生成，因此后验密度应集中在这一区域. 

在本例中，我们尝试使用两个不同的独立链.首先用密度 Beta ( l , l ) 作为提案 
密度,之后我们选用密度 Beta (2,10). 第一种提案分布等价于 Unif (0, l ) 分布，而第 
二种提案分布右偏，其均值近似等于 0.167. 在第二种情况中， 0.7 附近的5值不可 
能由提案分布产生. 


图 7.2 是两条链的10 000次迭代的样本 路径. 样本路径是迭代次数 t 对应链 
的实现糾的图.这种图可用于研究马氏链的性质并将在 7.3.1 节作进一步的讨论. 
图 7 . 2 中上面的长方形对应的是由提案密度 Beta ( l , l ) 生成的马氏链.上方的图形 
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7.1.2 随机游动链 

随机游动链是通过简单变化 Metropoli^Hastings 算法得到的另一种马氏链.令 
X . 通过抽取 e 〜 A ⑷生成，其中/I为密度函数，则^ + e. 由此我们得 

到一个随机游动链.在这种情况中， S(**|*W) =/»(**-*(«). 对于 ft 的一般选择 
包括以困点为球心的球面上的均匀分布,标准正态分布以及尺度变化后的学生 t 分 
布.如果/ 

约的 [460]. 

图 7.4: 

等高线（点状线)，同时给出了随机游动 MCMC 过程的前几步 • 


掌区域是连通的且在 
直机游动链在二维问題中 


:中如何运作.此图表示出了二维目标函数的 




















ft = 0.01 (下图） 


7.1.S 击跑算法 

如前所述，提案分布不随时间*的增加而改变,在此意义下 Metropolis-Hasting 
算法是时间齐次的.而我们仍有可能构造依赖随时间变化的提案分布 (-|* (t) ) 
的 MCMC 方法.这些方法可能非常有效，但是由于时间非齐性,其收敛性质通常 
更难确定 [. 

mm [90]. 在这种方法中，从 ajW 出发 
方向上移动的距离.初 

始化 xW , « 

(1) 抽取一个随机方向 pW 〜 h(p), 其中 k 为定义在单位浐球面的密度 • 

⑵寻找所有使得 *(« + A P W 为X的状态空间的实数 A 的集合.记这一标记 
长度的集合为 A(»). 

(3) 抽取一个随机标记长度 A(*)| (*(*), p W) ~ s W(AW|*(*),p(*)), 其中密度 
= ^(asW + ApW) 定义在 A(*) 上仅依赖于 A(*) 的提案分布 
—次迭代与下一次迭代有可能不同. 

⑷对于提案值 X* = + A w p(*)， 计算 Metropolis-Hastings 比率 


寸间齐次的.而我们仍有可能构造依薄 
1C 方法.这些方法可能非常有效，但 J 
^ [460]. 

中类似于随机游动链的方法称为击跑算 
多动分两步 产生： 选择一个方向移动 ， i 
链从 t = 0开始按如下步骤 生成. 




⑹设 




以概率 min{fl{*W,X*),l}, 
否则. 


⑹增加6返回第一步. 

上述算法是几种常见击跑算法变化而来的[叫. 



h 的选择对于算法的表现以及收敛的速度有很大地影响，最好的选择常依赖/ 
的形状及状态空间的几何性质（包括对X的坐标的限制和选择的单位） [322]. 
7.1.4 Langevin Metropolis-Hastings 算法 

一个带漂移的随机游动可由如下的提案值来生成 

X* =*(‘> + «£ ⑷ + 说⑷， (7.9) 

叫幻，“(•>， ( 7 ,0) 

并且是 P 维标准正态随机变量.标量 (7 是调节参数，其值由使用者选择以控 
制提案步幅的 大小. 标准的 Metropolis-Hastings 比率用于决定是否接受提案值，其 
中提案密度 fl(**|xW) oc expl-^Cx* - *«> - d ⑷ ) T (** - *(*) - <!(*))}• 

此方法的提案分布受一个随机微分方程的启发，此方程有平稳分布[248, 432] 
/并产生一个扩散（即，一个连续时间随机过 程). 为保证这里给出的离散时间马 
氏链所得到的离散化过程有正确的平稳分布， Besag 详细地阐述了各种 Metropolis 
Hastings 接受策略 [31] • 

了解目标的变化率并不像看上去那样困难.在/中任何未知的增加的常数项 
在取导数后就消失了.当精确的导数难以获得时，还可以用其数值近似来代替. 

与随机游动不同，此算法引入的溧移倾向于移向目标分布形式的提案值 .一 
般的 MetropoUs-Hastings 算法（包括随机游动链和独立链）通常采用不依赖于/ 
形状的提案值，因此更容易实施，但有时趋于平稳或者充分寻找/的支撑区域的 
速度很慢.当一般的算法表现很差时，我们经常采用针对问题特定的 Metropolis- 
Hastings 算法，并使用被认为可以研究目标性质而特殊定制的提案分布. Langevin 
Metropoli^Hastings 算法也给出了依赖于/形状的提案分布，而自目标一般通过使 




7.1.5 Multiple-try Metropolis-Hastings 算法 


如果一个 Metropolis-Hastings 算法在某个问题中未能成功，其原因可能是链 

的收敛速度慢或者长时间停留在/的局部峰之中.为克服上述困难，可以用扩展 

可能提案值的区域为代价，其中提案值由给出.然而这种方法常常使得 


Metropolis-Hastings 比率与 

现，同时不妨碍混合性 [35! 

try Metropolis-Hastings 抽 
这种方法通过生成大: 
选择一个能够确保此链保 : 


碍混合性 [359], Liu, Liang 和 Wong 提出另外- 


选择的非负加权其中对称函数 A 在后面有进一步的 讨论. 为确保正 
确的极限平稳分布，必须要求 g { x -\ xW ) > 0当且仅当 9 (*(*V) > 0,并且只要 
S (a*|*W) > 0则 A(xW,**)>0. 


记 ajW 为起始值,并且定义 


w ( u , v ) = /(«)s(u|t»)A(u,t>). (7.11) 

对于 t = 0,1，…，算法步骤 如下： 

(1) 由抽取独立同分布的 fc 个提案值 XI■■- 、xi‘, 

(2) 随机地在提案值集合中以正比于 MxW . xp.j = 1,…， fc 的概率选择一个 
提案值 Xj ; 

⑶给定 X ; = »;，由 g(-\x；) 抽取独立同分布的 fc - 1个随机变量 X ；*, •, 

仏.令 xr =® (t) ; 


⑷计算广义 Metropolis-Hastings 比牟 


R g = X ； )/Y^w{X； t X；*)； (7.12) 

⑻令 

x _ = {5’ 嚣率一〜 1} ’ _ 

⑹增加 L 返回第1步. 

我们可以直接证明此算法产生的马氏链可逆，其极限平稳分布等于 /. 这种方 
法的效率依赖于 fc, /的形状，以及 0 相对/的延展度.实际应用中，在每次迭代中 
可从很多的提案值中选择一个能够使得链之间有较小的相 关性. 这样做能够得到 
更好的混合性，因为在某种意义下较大的步幅可以找到其他的局部峰或者可以加快 
在某个有利的方向上的移动，而我们不能通过其他的方式实现这样的步幅. 



















’(n: xii=x ( j)i ’ (7.14) 

易证此时 Metropolis-Hastings 比率等于1，这意味着 X( t+1 ) 总是等于 X* 而从不 
保留以前的值 

当X的维数变化时不能用 Gibbs 抽样.这种情况下构造一个适当的有正确平 
稳分布的马氏链的方法，可参见 8.2 节. 

例 7.4 (河流生态监控）称为底栖无脊椎动物的河流昆虫在监控河流生态中是一 
个有效的指标,这是由于其相对平稳的基底栖息地被污染的程度是一个常数并且由 
于个体数目很多可以很容易抽样.假设在河流沿线很多地点可采集昆虫,并基于生 
态学上重要性的标准将昆虫分成几类.令 Vi,.. . 为某个特定的地点内 C 类不同 
昆虫中，每类昆虫的个数. 

一只昆虫被分到 每一类 的概率随地点不同而变化，收集到昆虫的总数也随地点 
的不同而变化.对给定的地点，令巧,…，朽为不同类昆虫的概率,并且令 W 为收 
集到的昆虫的总数.进一步假设 Ptr-.Pc 依赖于一个有关地点特性的集合，此性 
质可由参数 Qi,--,a c 分别概括.设 iV 依赖于一个特定地点参数九 

假设有两个备选统计量， ，y c ) 和乃⑺，…， V c ) 可用来监控河流中破 


的因素 d 













给定参数 a , ai , « a 和《 3 , 我们不可能得到 (y„y 2 ,K 3 ) 边际分布的显式表达 
式.然而，我们可以用 Gibbs 抽样模拟此分布.抽样方法简单概括为 

{ Y u Y 2 ,Y 3 ) |-~ Multinomial^; P1 ,P2,P3), 

(■Pi, ft, ft) |- ~ Dirichlet(yi + ai.ya+ aa,n - yi - ya+ a 3 ), (7.15) 

W - l/i _ J/2 I •〜 Poisson(A(l - pi - P2)), 


其中卜 表示分布以变量集合 {^YuYi^PuP^Pz } 中除分布本身变量外的其余 
变量为条件.问题 7.4 要求得到这些分布. 

直观上， (7.15) 式似乎与 Gibbs 抽样中的一元抽样策略不甚相近.我们不难证 
明 (7.15) 等价于如下基于X元素的一元条件分布的抽样 方法： 




广:# |. ~Beta(y[ t) + ai,n w - y[ l) - + a 3 ) , 

〜 Beta(y?> + « 2> «^ + a 3 ), 


及 

jV(»+i)_ y W _ |4*) I … Poisson(A(l-pi t) - p?))) • 

在下一节中我们将看到实际上我们不需要确定如上所述的专门依赖于一元条件分 
布的详细方案，而且也不建议在获得一些元素的新的观测值后继续在整个循环内以 
的元素为条件. 

“Gibbs 抽样”实际上是大量适应性非常髙的算法的统一名称.在接下来的几 
个子节中，我们将描述各种己有的用于改进上述通用算法的方案. 

7.2.2 立即更新 

当在 < 次迭代的时候X的一些元素己经被更新了，如果在更新其他的元素时 

不使用这些更新后的值会造成一定程度的浪费.事实上， Gibbs 抽样可通过在每一 

步都利用最近得到的其他元素的值来获得更好的效果.这种方法改进了链的混合， 

换句话说，链能够更快速，更详尽地探索目标分布的支撑空间. Gibbs 抽样描述如 


⑴选择初始值 arW, 并令* = 0; 









們.〜 / ㈣ +1) ，4 t +1> ， …，4外 


其中 I. 表示以所有其他元素最近的值为 条件； 

⑶增加 t, 返回第 （2) 步. 
r.2.3 更新排序 

(7.16) 中X元素的更新顺序对于不同的循环是可以变化的.有时候对每个循 
环而言，使用随机顺序是比较合理的.这被称作为随机扫描 Gibbs 抽样 [460]. 亊实 
上，甚至没有必要对每个循环中的每个元素都进行更新，而只要每个元索的更新足 
够地频繁就可以了. 

7.2.4 区组化 

Gibbs 抽样的另一种改进方法是所谓的区组化或分组化.在 Gibbs 算法中，我 
们没有必要单独处理每一个X的元素.在例 7.4 中，河流生态参数自然地被分为条 
件化的多项分布组,条件化的 Dirichlet 分布组，以及某单独的条件化的 Poisson 元 
素.举例来说，在上面 (7.16) 的一般步骤中，取 p = 4,则对每一个循环可采用如下 
的更新 序列： 


〜和 MU ?>)， 

对 +1) ， 对 +1) 卜 / 卜， X 3 | x ，, 外 
— •〜和 r )，4 t + i )，4 t+l) ). 


当X 的元素相关时，区组化特别有用，用其构造的算法能够使更相关的元素在同 
一个区组中被一起抽样出来. Roberts 和 Sahu 比较了各种区组化和更新排序方法 
的收敛速度 [463]. 基于模型结构, Sargent 等人的结构化 MCMC 方法为区组化提 
供了一种系统化的方法 [480]. 该方法在大量参数的情形下能够有更好的收敛速度， 
比如刚体力学模型的 Bayes 分析 [106]. 
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7.2.5 混合 Gibbs 抽样 

因为 Gibbs 抽样的一个循环内的每一步本身都是一个 Metropolis-Hastings 迭 
代，所以我们也可在适当的时候使用不同的 Metropolis-Hastings 变形.例如，对于 
p = 6,一种混合 MCMC 算法可如下进行： 

(1) 用某 Gibbs 迭代更新对 +1> | 

(2) 用某 Metropolis 迭代更新| 4^.^)'' 

⑶用某随机游走链迭代更新 xi t+1) \ (: «^ +1 )，4* +1 )，4* +1) ，4 0 ,4 0 ); 

⑷用某 Gibbs 迭代更新 (xr i) ,^ +1) )| (4* +1) ，4 t+ i),4* +1) ，4 t+1) ). 

当X的一个或者多个元素的一元边际密度没有显示表达的时候， Gibbs 算法 
中的 Metropolis-Hastings 迭代特别有用. 

7.2.6 另一种一元提案方法 

当不是所有的条件分布都可以容易地抽样的时候,混合方法，比如嵌入 Gibbs 
算法的 Metropolis-Hastings 方法,能够有效地构造 Gibbs- 型链.另外，由第6章中的 
技术拓展得到的方法可用于生成服从那些难以直接抽样的一元条件分布的 
样本. 

其中一种这样的方法是格点 Gibbs 抽样|458, 529】.假设对某一特定的我们 
很难通过一元条件密度 X k \x. k 抽样.格点 Gibbs 方法首先需在 f{.\x . k ) 的支撑 
上选择一些格点 21 ，…，〜.令<> == 1 , •••,«. 利用这些权以及相 
应的格点,我们可以近似密度函数 /(•!*_*), 或者等价地,近似其分布的逆函数.然 
后用这个近似来生成 4 t+1 V ( -l 并进行剩下的 MCMC 算法.对于第 fc 个一元条 
件分布的近似精度可在迭代的过程中不断地得到提高.最简单的近似和抽样方法 
是通过使用逆累加分布函数方法（见 6.2.2 节),从离散分布的概率密 
度取值&…， 2 „中抽取这样得到的近似的密度函数是逐段常数的， 
其在任意两相邻格点的中点之间具有一密度值使得在包含 A 的片段上的总的概率 
与成比例，由此密度函数可生成一个逐段线性的累积分布函数.基于第10章 
中的密度估计的想法还可获得一些其他的方法. 

如果对于 /(-|x_ fc ) 的近似随时间的变化通过改进格点的取值而不断地进行更 
新，那么所得到的链就不是时间齐性的.在这种情况下，文献中的关于 Metropolis- 
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题,也就是将由 /(-|*-fc) 的近似所得到的变量看作是一提案,然后基于 Metropolis- 
Hastings 比率来随机地决定是保留还是舍弃该 变量. Tanner 探讨了大量潜在的对 
于基本的格点 Gibbs 抽样的改进方法 [529]. 

7.3 实 施 

MCMC 方法的目标是估计目标分布函数 /• 这种方法的可靠性依赖于由马氏 
链的生成值所计算得到的样本均值对应该链的极限平稳分布下的期望的程度.前面 
我们所介绍的所有 MCMC 方法都具有正确的极限平稳 分布. 但是，实际使用该方 
法时,我们需要决定什么时候马氏链已经运行了足够长的时间以使得我们有理由确 
信所得到的输出足够代表目标分布，也即何时用所得的输出可以得到可靠的估计. 
不幸的是，有时 MCMC 方法收敛地非常慢,也就是需要特别长的运行时间，尤其是 
当X 的维数很大的时候.另外，当使用 MCMC 算法的输出来判断是否近似地达 
到收敛的时候，我们很容易获得错误的结论. 

本节将研究链的长期运行的表现问题.例如，链是否已经运行地足够长了；链 
的前面部分是否受初始值的强烈 影响； 是否该使用多个不同的初始值来 运行； 链是 
否跨越了 /支撑区域的所有 部分； 抽样值是否近似服从/;如何用链的输出得到 
估计并衡置其近似精度，等等_关于 MCMC 的诊断方法可参见 [70, 107, 320, 389, 
459]. 本节最后我们会给出一些关于 MCMC 算法编程方面的实用建议 • 



考虑要多久链才可以不依赖于其初始值以及需要多长时间该链能够完全挖掘目标 
分布函数支撑的信息.另外一个相关的问題是在一个序列中观测值之间要相隔多远 
才可以看作是近似独立的.我们将这些问题看作该链的混合性质. 


我们还需考虑该链是否近似地达到其平稳分布.实际上,分析是否收敛到平稳 
分布和研究该链的混合性质之间有很大程度的近似之处.许多分析诊断方法可同 
时用于研究混合和收敛的性质.此外，没有一种诊断方法是一定有 效的； 当某链不 
收敛时，一些方法却得到收敛的诊断结果.基于上述原因，我们将在接下来的几个 
小节中对混合和收敛进行联合讨论,并给出多种诊断技术. 

1. 提案的选择 

正如在 7.1 节中所提到的,提案分布的性质对混合有很强的影响，尤其是其延展 
度.进一步地,一个良好的提案分布所应具有的特点依赖于我们所要使用的 MCMC 
方法的类型. 
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对于某个 Gibbs 抽样，X的分量之间越独立，其效果就越能够得到增强 .一- 
重要的减少相关性的策略是重新参数化.1212, 287] 给出了多种方法的详细讨论.: 
见 7.3.1 节第4部分及习题 7.7. 

对于一个一般的 Metropolis-Hastings 比如某独立链,直观上显然我们希: 

提案分布9能够非常好地近似/,因此看上去我们想要的是以很髙的比率接受; 


程度更重要.特别地，如果 //S 有界，总的来说马氏链收敛到其平稳分布会更快些 
[460]. 因此,明智的做法是使提案分布从某种程度上来说比/更加分散. 

实际应用中，我们可以利用一个非正式的迭代过程来选择提案分布的方差.开 
始生成一个链，观测并记录提案被接受的比率，然后相应地调整提案分布的延展度. 
在达到了某个预先设定的接受率之后，适当调整提案分布的尺度并重新开始该链. 




目标函数的峰附近.在这种情况下，使用绝大多数的诊断方法都很可能得到链收敛 
的结论,但事实上此链并没有完全地刻画出目标分布.一个解决该问题的方法是运 
行多个具有不同初始值的链，并比较其链内和链间的表现情况 . 7.3.1 节第5部分 
将给出该方法. 

令人惊讶的是，运行多个链来研究链之间的表现情况的这种一般想法实际上相 
当有争议性.在 MCMC 方法的早期统计发展中，其中一个最热烈的争论是到底是 
将有限的运行时间花在加长一个链的运行长度上更重要,还是用在同时运行多个具 
有不同初始点的较短的链来研究表现情况更有意义 [204, 196, 389]. 尝试使用多个 















一个链挖掘出来，并且使用单独链的无效性,也就是单独链不能够找出这些特点或 
者忽视了初值的影响，能够被检查出来.在这种情况下，我们需要加长链或者重新 
参数化该问题使其具有更好的混合. 

使用长链的一些论点 如下. 使用许多短链只有在它们揭示出不好的收敛表现 

时才会比使用长链更有意义.在这种情况下，由这些短链模拟生成的值是不稳定的. 

其次,使用多个短链来诊断收敛的有效性主要限于一些不切实际的简单问题或者那 

些我们已经很好地了解/的问题中.第三,给定某总的计算量,若将其分配到多个 
链的运行上有可能会得到不好的收敛,但若将其全部用于一个长链的运行上可能就 
不会如此. 

从实际应用的角度,我们不认为上述的使用单独链的论点完全令人信服.由不 
同的初值来生成多个短链是计算机代码全面调试中基本的 要素. 我们对/的一些 
主要的特征（比如多峰，高度集中的支撑域)，经常有很好的认知——即使复杂的 
实际问题——尽管不能够确定对这些特征的具体细节.由多个不同初始状态所得 
到的结果通常还可以提供/的关键特征 的一些 信息，反过来这些信息能够帮助我 
们决定使用的 MCMC 方法以及问题的参数化是否得当.多个短链的不好的收敛情 
况亦能够帮助我们决定当使用某长链的时候,链的表现的哪些方面是我们最需要监 
控的.最后， CPU 的运算速度己今非昔比，而且花费也越来越少.我们可以使用多 
个短链和一个长链.在使用覆盖/支撑的具有不同初值的多个短链之后，我们能 
够进行一些解释性的工作.链的表现的诊断可以通过大量正式和非正式的技术来实 
现，其中许多技术将在下面给出介绍.在确信实施方案能够成功之后，我们就可以 
由一个好的初始值来运行一个最终的相当长的链来计算并公布结果 • 


3. 用于评价混合4 
在编写程序夫 


t 合和收敛的简单图 

P 并运行了具有多个初始值的 MCMC 算法之后，对于特定的问题， 
使用者们应该运用各种诊断工具来研究 MCMC 算法的性质.下面我们将讨论三种 
简单的诊断方法. 

-个描述迭代数对应 X^\t = 0,1,…，的实现值的图.样本路径 
. 如果链的混合不是很好,那么在很多次迭代中它都将 
I 7.2 下图中所示.一个混合很好的链能够快速地远离初 
-无论它以何值开始——且样本路径将会在/的支撑域附近强烈地摆动. 


cusum (累积和）诊断用于衡量一维参数0 = E{h(X)} 的估计的%敛性 [578]. 
在舍去最初的一些迭代值之后，基于链的《个实现的估计为6 

cusum 诊断是一个描述& 对应 * 的图.如果最终的估计量是用 

除 去一些 预烧值（将在后^讨论）之后的剩余链的迭代计算而得到的，那么估计和 








的自相关图 


4. 重新參数化 

我们可以通过对模型的重新参数化来改进 Gibbs 抽样和 Metropolis-Hastings 
算法的混合性质 .A" 元素间的高度相关性会导致 Gibbs 抽样较差的收敛，而通过 
对模型的重新参数化则能够降低相关因此可加快其收敛速度.举例来说,若/是具 
有很强正相关的二元正态分布，则对于两个一元条件分布而言，在任一个轴上我们 
通常只能取相距较小的步輻.因此， Gibbs 抽样收敛至/的速度会非常 
慢. 但如果我们假设 Y ^( X 1 + X 2 , X 1 - X 2 ). 这样的变换会使得一个一元条件 
分布落在X的最大变差所对应的轴上，而另一个落在与该轴正交的另一轴上•如 
果我们将/的支撑视作一雪茄型，则对于 y 的一元条件分布允许我们取到雪茄的 













长度和宽度的步幅.因此，参数化至 F 使我们能够更容易地由目标分布的支撑上 
的一点通过一步（或很少的几步）移动至另一点. 

对于线性模型问题，如果协变量是连续的，那么我们可以通过对这些协变量的 

中心标准化以达到降低模型中参数相关性的目的.另一种方法是所谓的等级中心 

化.这种方法对于具有随机效应的模型特别有用.见问通 7.7. 

不幸的是，重新参数化的方法通常对于特定的模型需要特定的处理，因此我们 
很难给出通用的步骤.另一种改进 MCMC 算法的混合,加速其收敛速度的办法是 
通过使用所谓的辅助变量来放大 问题; 参见第8章.大暈的重新参数化和加速的技 
术可参见丨91， 460] 及其中的参考文献 • 

5. 预烧和运行长度 

在关于收敛的诊断中核心问思是考虑预烧期和运行长度.回想 MCMC 算法只 
有在极限情况下才会有〜 /. 对于任何的操作,其中的迭代都不会很精确地服 
从我们想要的边际分布，而链对初始点的依赖性也很强.为了降低这个问题的严重 
性，我们通常会舍弃链的前 D 个值,也就是所谓的预烧期. 

关于预烧期和运行长度的确定是当前活跃的研究方向.一个常用的方法由 Gel- 
man 和 Rubin [194,196] 提出. 这个方法中， MCMC 算法由个等长的链组 
成,这些链的初始值散布在目标密度的支撑上.令1表示在舍去 Z? 个迭代之后每个 
链的长度.假设感兴趣的变置是X,其在第个链上的第 * 个迭代值为 af. 因此，对 
于第 j 个链，舍去 D 个迭代值 af ,…而剩下 L 个值: c$ D) , … 

令 

4 =圣 且 5 = ( 7 . 17 ) 

并定义链间方差为 

(7.18) 

现如对个链的链内方差为4 - 2 ,则令 
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度分别应该取什 么值. 大多数的学者都不愿推荐通用的值，因为适当的选择髙度依 
赖于问题本身以及所使用的链挖掘/支撑域的速度和效率.类似地,可允许的运算 
时间也在一定程度上决定了这些值的 选择. 在过去几年发表的一些分析研究中，曾 
使用过从零到数万的预烧期以及从数千到上百万的链的长度.诊断通常依赖于三个 
或更多的链 • 5至10年前,预烧期和链的长度只有现在的十分之一.由于计算速度 


致.首先,建立多个具有不同初始值的试验性的链.然后，使用一些如前面所讨论的 
诊断方法确保链具有良好的混合并且近似地收敛到平稳分布.接下来用一个新的种 
子生成随机数并重新启动最终的长链. 








































査,甚至也不需要尝试去捕获大部分的个体.每次调査中被捕获的个体都会被做上 
标记然后再放生回去.一个被标记过的个体在接下来的调査中再次被捕获则被称 
为一个再捕获.总体数量可基于捕获与再捕获的历史数据来估计.高再捕获率说明 
真实的总体大小不会超出被捕获过的不同个体的总数很多. 

令 N 为未知总体的大小,现欲利用 J 次调査所得到的总的捕获（包括再捕获） 
数目来估计 AT, 这些数目被记为 c = ( Cl ，…， C/ ). 我们假设抽样期间内总体数目不 
再变化,也就意味着在这一期间内出生，死亡，以及迁徙是无关紧要的.在该研究中 
被捕获的不同个体的总数记作 r. 

我们这里考虑的模型是每次调査的捕获概率未知且 « = («,,••• ,«；). 此模型 
假设所有动物在任一捕获期内是等可能被捕获的，但捕获的概率随时间而变.该模 
型的似然为 ^ 

L(Ar,o|c,r)oc $冲 (1 - ai ) N ~^. (7.22) 

经常称此模型为 A/W 模型. 

在新西兰南岛的 Otago 半岛所作的捕获-再捕获研究中，一个季度7次调查 
中软毛海豹被标记然后释放.假设海豹幼崽总体在该研究期间内不变是合理的.表 
7.1 给出的是在 i 次调査 （i = l，"*,7) 中，所捕获的海豹幼崽的数量 （cO 以及在这 
些捕获中对应的之前未被捕获过的幼崽的数量 ( rm ). 在抽样期间总的观测到的不 
同个体的总数为 

现考虑估计,我彳 ffl 使用等级 Bayesian 框架来处理，即假设 iV 和 a 相互独立 
且有如下先验 分布： 对于况非信息化的 Jeflreys 先验 /(AT) a 1/ N -, 对于捕获概率， 
/(ail 沒1，内）= Beta (内 ， $ 2 ),i = !,■■■, 7, 且假设它们是先验可交换的.文献中一些研 










究指出 M ⑷模型对于捕获概率的先验分布相当敏感 [201]. 为了减轻这种敏感，我 
们介绍 (01, « 2 )的一种超 先验： f(0i,02)<x exp{-(0i+e 2 )/l 000}, 其中假设 (01,e 2 ) 
与其他参数是先验独 立的. 接下来，通过模拟条件后验分布可构造一种 Gibbs 抽 
样 

7V-84|-~ NegBin ^84,1 - f[(l - «0 j , (7.23) 

Oj| •〜 Beta(Ci+di，JV-Cj + (?2)，i = l, ••- ,7, (7.24) 

其中卜表示以 {N,a，0i,0 2 } 的其他参数和表 7 .1 中的数据为条件， NegBin 为负二 
项分布, A; 是未知参数.注意从 (7.25) 中抽样并不容易.因此我们建议对 （7.25) 式 
采用 Gibbs 抽样与 Metropolis-Hasting 算法中的其中一步混合的抽样方法 • 


-个 季度中7 次 调査的 软毛海 豹数据 

1 调査9试， i 



然而，关于 (Ox, 0 2 )生成一条充分混合并且收敛的链存在很大的困难 • 为了改 
善这种情况，将 (9 U 6 2 ) 变换为 U = (UuU 2 ) = (log 札 log 办).这样做可以使一步随 
-1，提案值 IT 可以通过抽取 e 〜 JV(0,0.085 2 f) 







图 7.7 海豹幼崽例子中最后5 000次迭代对于 AT (左图）和 C7 (右围）的样本路径 
图 7.8 表示均值取值捕获概率的盒子图，对应 N ^). 正如我 
们所期望的,随捕获概率的均值减少，总体数目增加.图是关于 W (t) 的直方图， 
关于 iV 的后验推断可以以此为根据.在 (84, 95) 中的一个95%的 HPD 区间内， AT 
的后验均值为 90. 

































的超参数重复实施 Gibbs i 
这种做法称为敏感度分析. 
品公司有何建议？ 
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MCMC 中的深入论题 




















^ ^ ^-gT-xTff^is 


考虑扩充后的变量 ex,/), 其中温度 / 为随机变量，其先验分布为/ 〜 淖).令 
起始值为 (x^,iW), 我们在扩充后的空间中构造 Metropolis-Hastings 抽样机如下. 

(1) 从平稳分布为 / <( o 的链中利用 Metropolis^Hasting 或 Gibbs 更新方法抽取 

(2) 从提案密度 5 (.|押）中生成 /•. 一种简单做法为 

{ 1，如果 （i ⑴, i*) = (1，2)或 (»«,«») = (m,m-l), 

1/2,如果 |i_ - i ⑴ | = 1 且洲 € {2,…， m - 1}， 

0，否则. 

(3) 如下接受或拒绝候选值 /' 定义 Metropolis-Hastings 比率为 i?ST(#)， 
r,x^ t+ % 其中 

n fll „ 工、 Mz)p{v)g(u\v) mi s 

并且以概率 mi n {i?sr(W*,X(* +1 >)，l} 接受 /< t+1 ) = /*. 否则，保留当前状态的 
另外一个副本，令 
⑷返回第1步. 

在冷分布下最简单的估计期望的方法是将由冷分布生成的值平均，同时去除由其他 
fi 生成的值.为更充分地利用这些数据，注意到从扩充后的链的平稳分布中抽取的 


估计关于/的期望，其中/为目标 密度; 见第6章 ■ 

P 的先验分布由使用者设定，其理想的选择是要使得 m 个回火分布（即，对 i 
而言有 m 个状态）被访问的可能性大致相等.为使所有的回火分布在可接受的一 
段运行时间内被访问， m 必须相当小.另一方面，每对相邻的回火分布在扩充后 
的链上一定要有充分的重叠，才能较容易地从一个分布移向到另一个分布.而这就 
要求一个较大的 m. 为平衡这两方面的要求，我们建议 m 的选择要使得接受率在 
7.3.1 节第1部分给出的范围之内.对此问題的改进、推广及相关技术在[203, 206, 

















切片抽样机已被证明有很好的理论性质 [398, 462], 但将其应用于实际仍存 
在一定困难 [410, 460]. 上述基本切片抽样机方法可以推广到包含多个辅助变量 
U u "，U k 以及X 是多维的情况 [113, 286, 398, 462). 同时还可以构造一种切片抽 
样机算法保证抽样取自马氏链的平稳分布 [83,397]. 这其实是一种变化的完美抽样 
机,对完美抽样机的讨论将在 8.3 节中给出. 

8.2 可逆跳跃 MCMC 

在第7章中我们考虑了用 MCMC 方法从平稳分布为/的马氏链中模拟X⑴， 
t = 1，2，..•.第7章中给出的方法要求的维数（即，其状态空间）和X ⑴的 
元素意义不随 t 而改变.在许多应用中，我们感兴趣的是生成一条链，允许其参数 




































其中 Z3% 是对应设计矩阵的一个参数向量且误差方差为 a 2 . 在本节的剩余部 
分中，都以假设预测数据给定为条件. 

所谓好模型的概念有几种含义.在例 3.2 中，我们用 AIC (Akaike information 
criterion) 准则选择最好的模型[7, 75]. 此处，我们利用 Bayes 的方法作变1：选择， 
































目的是选择最好的模型，则应选择预测变量为3, 8, 10, 13和14的模型,这些标号 
对应的预测变量在表 3.2 中给出. 


表 8.1 关干棒球例子的 RJMCMC 横型选择 结果： 后验模型槪率 ( PMP ) 最离的5个 
模型. 黑色的圆点表示在给定的模型中相应的预测变置，标号对应的预测变量在表 
3.2 中给出 


表 8.2 中给出后验效应概率# 0| W ) 大于 0.10 的预测变置.每个元素都 
是示性变童的加权平均，其中只有当系数在模型中时，示性变置等于1,其中加权对 
应 (8.12) 式中的后验模型概率.结果表明，自由球员、仲裁地位以及跑进垒的次数 
很大程度上决定垒球运动员的薪金. 


标号对应的预测变置在 


預测变量 
仲栽 

击球«垒得分 
三击未 中出屬 
跑垒败 
安打数 
SBsxOBP 
SOsx 失误 


通过变换 (8.12) 式还可计算我们感兴趣的其他量，如每个回归系数的模型平 
均后验期望和方差，或者各种后验薪金的预测. □ 

还有一些其他的方法模拟维数不等的马氏链. Stephens 根据连续时间的马尔可 
夫生灭过程提出一种很有希望的方法 [517]. 该方法通过点过程对参数 建模. Green 
的 RJMCMC 和 Stephens 的生灭过程之间的联系在[78】中提及.有一个 RJMCMC 

算法的一般形式可将许多现存的评估参数空间维数不确定性的方法统一起来 [2301. 

这些问题将很有可能被持续关注并得到快速的发展. 
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8.3 完美抽样 











状态下开始一条链，并且每条链向0时刻运行.为此，令 x^=q 


接下来，重新使用在第1步中生成的，有= ?^ 0) ,^°)).如果所有尺 
条链在0时刻有相同的状态,则链完成 E 对且义⑼抽取自/;算法停止. 

(3) 如果链没有配对，将起始时刻向后移至时刻 r = -3 并且更新如上.我们 

















独立性，则可以运行 CFTP 一次并且从 t = 0时刻的状态出发继续运行此链.第 
一种选择可能更可取，而第二种在实际中却可能更合理,特别是对于在完成配对前， 
CFTP 算法需要很多次迭代的情况.对于使用完美抽样算法我们只有两种最简单 
的方法，见 t404j 及丨 568] 中的参考文献. 

例 8.5 (在小状态空间中的样本路径）用图 8.3 表示本例的三个可能状态力，勿, s 3 . 
在迭代1中，在 t = - 1时刻从三个状态出发.选择一个随机更新17⑼，并且 
4 0) = 9 (sk,U {0) ), A： = 1，2,3.在 * = 0时刻路径没有完全配对，于是算法进行迭代 
2. 在迭代2中,算法在 r = -2 时刻开始.从 t = -2到《 = -1 步的转移法则基于 
-个更新抽样变貴 M- 1 ). 而从 f = -1 到 t = 0步的转移法则要依靠之前在迭代1 
中获得的 U^.t = 0 时刻路径没有完全配对，于是算法进行迭代 3. 在这里，要再 
次使用之前抽取的 C/ ⑼和 m- 1 ) 并且选出新的在迭代3中，在於= 0时刻， 
所有三条样本路径到达状态 S2 , 因此路径完成配对，同时=的为平稳分布/ 


迭代丨 迭代2 迭代3 

m 

-2 -1 0 -3 -2 -1 0 -3 -2 -1 0 

图 8.3 完美抽样的抽样路径示例.见例 8.5 中的详细描述 

































8.4 例： 马尔可夫随机域上的 MCMC 算法 


本节介绍马尔可夫随机域模型的 Bayes ， 

析.此课题对本章中讨论的很多方法给出了有趣的例子. 

一个马尔可夫随机城对于参考的空间随机变量指定了概率分布.马尔可夫随 
机域相当广泛并且可用于很多格子型结构，如正规的长方形，六角形和不正规的网 
格结构 [110, 539]. 还有很多用马尔可夫随机域建构的复杂问题，我们在此不作研 
究. Besag 关于空间统计量和图像分析中的马尔可夫随机域发表了大童关键的论 
文，包括他经典的1974年的文章[!29, 30, 34, 35, 36, 37]. 此外关于马尔可夫随机域 
的全面介绍在 [110, 329, 353, 569] 中给出. 

为简单起见，我们这里主要考虑马尔可夫随机域在正规长方形格子中的应用. 
例如,我们可在一幅地图上或者图像上覆盖一个长方形格子并且标注格子中的每一 
个像素或 单元. 格子中第 i 个像索的值记为跔， i = ，n, 其中 n 是有限的.我 

们关注二元随机域，其中恥只能取0和1两个值，* = 1, •••,«. 我们可以直接推 
广这种方法到而是连续I 


I 其中恥 只能取0和1两个值， i = 1, •••,«. 我訂 
是连续的或者可以取两个以上离散值的情况 [110]. 
mi 附近像素的 a： 值的集合.定义为&的像素称为* 
中.一个正确的邻域定义需要满足的条件是如 果像: 
3 为像素 i 的邻点.在长方形的格子中，一阶邻域为: 


令为在像素 i 
城.像素而不在中. 

3 的邻点，则像素: j 为像素 i 的邻点.在长方形的格子 * 

的像索附近垂直方向和水平方向的像素集合（见图 8.4). 二阶邻域还包括像: 
对角线方向的像素. 


像素 i 的邻 
i 为像素 
阶 邻域为我们感兴趣 
素附近 

















—种常见方法是依次更新 每个； 然而在独立的区组中更新像素在计算上会更有 
效率.而区组由对特定问题定义的邻域决定 134]. 另一种对马尔可夫随机域模型更 
新区组的方法在 [333,474] 中给出. 

例 8.6 (犹他花揪树分布图）生态学中一个重要问埋是在一个自然地区标出物种 
分布丨 251， 4951. 这种分布图有很多用途，范围从最小化人类发展对稀有物种影响 
的局部土地使用规划，到对世界范围的气候建立模型等.这里我们考虑一种生长在 
科罗拉多州被称为犹他花揪树 (Amelanchier utahensis) 的落叶灌木 [355]. 

我们仅考虑科罗拉多州最西部的区域（大约在西经 104°), 该区域包含落基山 
在内.我们将 出现一 未出现的信息分成近似8公里乘8公里的像素.这一网格由 
46 x 54 个像素的格子构成.己知像素总数为 n = 2 484.图 8.5 中左图表示观测出 
现和未出现,其中黑色像素表示我们在这一位置观测到物种. 



田 8.5 玑化? 

观测的物种的 

-般在应用这种4 
能够对下面将要给出 


左种模型时往往无法获得真实 图像. 然而已知真实图像可以使我们 
爹出的二元空间数据模型展开多方面的研究.因此，为了说明，我 
们采用这些出现一未出现的成对数据作为真实图像并考思从图像退化的形式估计 


真实图像.一个退化图像在图 8.5 的右图中给出.我们利用这个退化图像寻找图形 
重建物种的真实分布，其中退化图像可看作是观测数据 v. 观测数据通过随机选择 
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图 8.7 例 8.6 中 P[X t = 1] 的后验均值估计的盒子图.平均 Gibbs 抽样中特定像素的样本 


路径,对每个 i 给出 P\Xi = 1] 的一个估计.盒子图说明这些估计分成两组分别对应 


例 8.6 所用的模型是很基础的,它忽略了很多在分析空间格子数据时产生的重 
要问题.例如，当通过从空间上划分参考的数据来创建像素时，如果物种在像素的 
某些部分出现而在其他部分不出现，我们就不知道如何对像素 i 中观测到的响应 

考虑到上述问題，一个模型在我们感兴趣的区域中用到一个潜在的二元空间过 
程 [110, 192]. 令 A(«) 为一个图像区域的一个二元过程，其中 s 为 坐标. 我们要研 
究的物种在像素 i 出现的比例为 

其中|次|表示像素 i 的区域.令 Yi\xi 为独立的条件 Bernoulli 试验，其中观测到物 
种出现的概率为 Pi ，因此 P[Y i = l\X i = l] = Pi . 该公式允许在像素包含几个抽样 
位置时直接建模.这一模型的更复杂形式在 [192] 中给出.我们还可结合协变量提 
高对物种分布的估计.例如，对参数为扒的 Bernoulli 试验建立模型 
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log| } =«>i ， /3 + 7i > (8.23) 

其中 t«i 为第 i 个像素的协变量向量，为协变量的系数向量，卞为一个空间相关 
随机效应.这种模型常用于空间流行病学的领域，见138, 39, 351， 428]. 

8.4.2 马尔可夫随机域的辅助变量方法 




像以及一个 4 x 4 的图形中所有可能的连接构成的集合.中间的图表示 Swendseii- 
Wang 算法的下一次迭代开始时生成的所有连接.下面我们将看到颜色相近的像素 
之间以 l-exp{- 灼的概率连接起来，因此颜色相近的相邻像素并非是强制连接 
起来的.连接的像素构成的连通集合形成聚类.在图 8.8 中间的图上，用框线围起 
5个聚类.这表明 Swendsen-Wang 算法允许图像粗糙.在每次迭代的最后，更新所 
有聚类的 颜色： 依照图像的后验分布决定的某种方式，随机给聚类重新着色.图 8.8 
右边的图表示的就是颜色更新后产生的新的图像.这里没有表示出观测数据 



团 8.8 Swendsen-Wang 兑法的说明 
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对该问题的应用中，由 Swendaen-Wang 算法获得的一系列图像看起来与 Gibbs 抽 
样得到的图像相当近似，此时由 Swendsen-Wang 算法和 Gibbs 抽样得到的结果差 
别很小. 

利用称为分离的性质, Swendsen-Wang 算法不考虑以 X% 为条件的似然函数 
而生成聚类.似然函数和图像的后验分布在算法的第1步和第2步被分开.这一 
性质很吸引人，因为它可以提高 MCMC 算法的混合速度.然而除非认其选取 a 和 
P, 分离性质也可能并无用处.如果聚类变大而颜色变化频繁，则样本路径中将几乎 
没有剧烈的图像变化.这就导致混合性差.进一步，当后验分布是多峰的时候，如 
果链运行得不够长， Gibbs 抽样和 Swendsen-Wang 算法可能错失潜在的峰.为解 
决这些问题，一种部分分离方法被提出，同时这种方法对于解决比较困难的图像问 
题也有一些潜在的优势 [285, 286]. 

8.4.3 马尔可夫随机域的完美抽样 

对一个二元图像问题实现标准的完美抽样需要监控从所有可能的图像出发的 
样本路径.很明显，即使对于一 JK 大小的二元图像问题这都不可能做到.在 8.3.1 节 
中,我们介绍了处理很大状态空间的随机单调性方法.我们可应用这种方法对马尔 


可夫随机域的 Bayes 分析实现完美抽样. 
















们从 Unif(0,l) 中生成洲 +1 ).则更新值为 

^* +1) = 9 (* ( 4，^ +1) ) 

J >• 如果抑 》<p[# +1 ) = ih?U], (8 . 26) 

1 0，其他， 

其中 = 在 (8-21) 中 给出. 这些更新值仍保持状态空间的半序 

性质. El 此，实现 CFTP fc 法要从两个初始图像 出发： 即从全黑和全白的图像出 
发.我们只需监控这两个图像，并继续 CFTP 算法直到两图像在 i = 0迭代时配对 • 
CFTP 算法在类似二元图像问題中的应用，见 [144,145]. 

8.5 马氏链极大似然 

在很多 Bayes 的例子中，我们都曾用 Monte Carlo 积分来表示马氏链 Monte 
Carlo 方法.而 MCMC 方法对于极大似然估计问埋同样适用，特别是对于指数族 
而言1205, 429]. 考虑由指数族模型•〜 im 生成数据，其中 

ti . x \ e ) = Ci(x)c 2 (fl)exp {fl T *(*)} . (8.27) 

这里0 =队,… ，知） 和 s(*) = ( Sl (*), -- , a p ( x )) 分别为参数向量和充分统计量. 
在很多情况下， c 2 {9) 不能通过分析方法确定，因此使得似然函数不能直接极大化. 

假设我们用 MCMC 方法生成X⑴,… , X ^\ 其平稳密度为 /(#), 其中矽 
是为 e 专门选择的，且 sm 属于和数据密度相同的指数族.则易证 

CiiB )- 1 = C2( 利- 1 J exp{(»-V>) T s(*)} /(a#)dx. (8.28) 

虽然 MCMC 抽样之间相互联系，并且并非真正取自 /(.1V0, 但是利用强大数定律， 
当 n 00时，有 

He ) =^Eexp {(«- 利 - 讀. (8.29) 

因此，给定数据 x 的对数似然函数的 Monte Carlo 估计为 

i (0\ x ) = 0 T a { x ) - log k {0), (8.30) 

再加上一个常数.当 n — 00时，极大化矽|*)的值收敛到极大化真实对数似然 
函数的0值.因此，我们取0的 Monte Carlo 极大似然估计为极大化 (8.30) 式的 
值，记 为心. 
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于是,可利用 MCMC 方法生成/(沖）的模拟值近似 MLE 9. 显然，似然估计 
^的性质在很大程度上依赖于矽的选择.与重要抽样相同，对咕最好的选择是令 
— e . 而在实际中，我们可能需要通过自适应或者经验似然估计精心选择一个或 
者几 个功值 [205]. 


8.1 在 8.2.1 节中曾给过一个在线性模型中进行 Bayes 变量选择的方法,并且该方法在例 8.4 
中得到进一步的验证.对于 (8.10) 式中的 Bayes 分析，我们可以使用正态-伽玛分布 K 
先验共扼族圳 m* 〜和 vA/a 2 ~ X ；. 证明 r|m fc 的边际密度为 


W*r(|)[j + x mk v mjt ^jv> 

<Uv + (Y-X nk a mk ) T {l + X^V^X^y 1 (Y - ~ 




则，其中一个转移法则 91 , 可在某一次迭代时 
对. CFTP 算法中的哪条假设与法则 92 相违 

十么 CFTP 算法不能在 t = 0时开始并且完 
: 8.3 节讨论过的问题. 











r = 15 或更早的时刻开始.画出从所有起始时刻 （11 个起始值）到 i = 0时刻的样 
本路径，即顺序连接状态的线路.如同图 8.3 的右图一样，观察链的配对情况.并说 
明图中我们感兴趣的性质. 

：0运行几次⑷中的算法.每次运行，选择一个长度为20的完美链（即，一旦完成配 
对，算法并不在 t = 0时刻停止，而是从 t = 0时刻继续链的运行到 t = 19时刻). 
选择一个这样的链，其中= 0,并且画出 t = 0, .. • , 19的样本路径.接下来，从 
* ⑼= 0出发经过 t = 19时刻，运行㈦中的 Gibbs 抽样. 在己画好的图上用虚线 
迭加这条链的样本路径. 

i. 在 Gibbs 抽样中预烧 t = 2是否充分？为什么？ 

ii •(以 * ⑼= 0为条件的 CFTP 算法和从I⑼= 0开始的 Gibbs 抽样产生的）两条 
链中，哪一条生成的随机变量序列X ⑴, t = 1,2,…，的分布更接近目标分布？为什 
么这种带条件的 CFTP 链不能产生一个完美抽样呢？ 



f ( x \ y ) oc exp j exp ， 

—{™ 
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(d) 有什么好的方法可以产生一个最好的图像代表你对真实图像的估计？ 



图 8.11 问« 8.4 的40次 Gibbs 抽样迭代，其中/3 = 1 
图 8.12 中给出的真实图像以及观测图像的数据可在本书的网站上获得.这里的真实图 
像是一个二元的20 x 20像素的图像,其先56密度为 

J{x i \x li ) = N(i tl ,<r a /v i ), 

i = ，!》，其中切为抑的邻域氏中邻点的个数，而為< 为第 i 个像素的邻点的均 

值.先验密度使得局部相关.观测图像是带有嗓声的真实图像的退化形式，用灰色标注， 
并可通过一个正态分布 jfei 模型.假设似然方程为 


f(Vi\xi) = N[xi,<x% 


其中 i = ,n. 





要确保边缘区域不影响你的分析. 

• 画出一次完整循环中最后的X ⑴图, 使得可以更好地理解你所构造的链的表现. 
(c) (b) 的方法运行 2x3 因素设计,要求填充设计的剩余部分，其中设计的因子 

和水平 如下： 

• 选择的相邻结构为⑴一阶邻域或⑻二阶领域. 

• 选择像素误差的变化串为 （i) = 2, (ii) <7 = 5或 （iii) (7 = 15. 

作图并详细比较试验中每个设计点的结果. 

⑷仿照⑼的方法再重 ft —次运行,但这次起始图像：⑼等于 57.5 (真实后验平均像 
索颜色)，其中夕= 5并使用到一阶邻域.讨论你的结果并通过结果说明链的表现. 
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在表 9.1 中， P*[^] 表示以原始观测为条件抽取/•的 Bootstrap 实验中 M 
的概率分布.为与 F 区分，当涉及该条件概率或矩的时候，我们用星号来表示，如 
P* [?* <6/3 = 8/27]. 

Bootstrap 的基本原则就是视和 R ( X , F ) 是等同的.在该例中，这就 
意味着我们 基于沪 的分布来进行 推断. 该分布归纳在表 9.1 中,也就是？•和 P-[H 
所以，举例来说，利用沪的分布的分位数，可得到对于 d 的一个简单 Bootstrap 
25/27 (大约 93%)置信区间为 (4/3,14/3). 点估计仍然通过原始观测数据来获得, 
即？ = 9/3. 口 


9.2.1 非参数 Bootstrap 


9.2 基本方法 
































9.2.3 基于 Bootstrap 的回归方法 

考虑如下一般的多重回归模型， K = *?/3 + 6 i> t = l,•••,«, 其中假设 ei 是均 
值为零方差为常数的独立同分布随机变量.这里，叫和卢分别是维的协变量 
和参数.一种简单但是错误的 Bootstrap 方法描述如下.我们从响应值集合中重抽 
样来构成一个新的伪响应,也就是对于每一个观测的有1?,从而可得到一个新 
的回归数据集.然后可以由这些伪数据集来计算 Bootstrap 参数向量估计^•重 
复重抽样和估计的步骤很多次后，^经验分布可用于推断 /?. 这样做错误的原因 
是不是独立同分布的——它们具有不同的边际分布.因此，用这种方法生成 
Bootstrap 回归数据集是不恰当的. 

为了确定一个正确的 Bootstrap 方法，我们必须找到合适的独立同分布的变置. 
模型中的^是独立同分布的.因此，更恰当的策略是如下所描述的 Bootstrap 残 
差法. 

我们先由观测数据拟合回归模型，然后获得拟合的响应访和残差从拟合 
残差集合中有放回地随机抽取得到 Bootstrap 残差集合 {?!，■••,?；}. (注意实际 
上？：不是独立的，尽管通常来说它们近似独立 .） 生 成一个 伪响应 Bootstrap 集合， 
=负+苟， i = 1，…小.对 * 回归从而获得 Bootstrap 参数估计吾 •. 重复多 
次该过程可得到^的经验分布函数，然后我们用它进行推断. 

对于设计好的实验或者 A 值是预先固定的数据，这种方法是最适合的.对于 

其他模型，如 AR(1), 非参数回归和广义线性模型的简单 Bootstrap 方法的核心都 

是 Bootstrap 残差的策略. 

Bootstrap 残差依赖于选定的模型是否能够给予观测数据适当的拟合以及残 
差具有常数方差的假设.如果对这些条件的成立没有足够信心的话，则我们可能需 
要使用其他的 Bootstrap 方法. 

假设数据从某观察研究中得到，其中响应变量和协变量都是从一群个体中随 
机选出并测量得到的.在这种情形下,我们可将数据 A = (Xi.J/i) 视作是从响应- 
协变量联合分布中得到的随机变量及= { Xi . Yi ) 的观测值.对于 Bootstrap, 可随 
机有放回地从观测数据中抽取样本对所得到的伪随机 
数据集拟合回归模型以获得 Bootstrap 参数估计多次重复这些步骤，然后如 
第一种方法中介绍的进行推断.这种情形的 Bootstrap 方法有时也被称作为成对 






表 9.2 用于描述获得对 汍 /A) 的 Bootstrap 
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置倌 区间方法的铜_镩 

ns 0.01 


101.5 130.1 




令 *< = (Xi,yi),i = 1，…，13,假设采用成对 Bootstrap 方法.通过观测数据 
得到估计？=炙/爲= -0.185. 对于 i = 2,." ,10 000,我们随机有放回地从13 
个数据对 {*!,••-,*13} 重抽样得到 Bootstrap 数据集 {Z!, …， ZJ 3 } .图 9.1 是由 
Bootstrap 数据集回归所得到的估计的直方图.这个直方图归纳了 0的估计？的抽 



的 Bootstrap 佑计 

图 9.1 铜卷合 金数据的非参数成对 Bootstrap 分析所得到的 峰 的10 000次 Bootstrap 
估计的直方图 


9.2.4 Bootstrap 偏差修正 

当 T ( F ) = 时，在 Bootstrap 分析中我们特别感兴趣的量是 R { X , F ) = T ( F )~ 
T ( F ). 这个量代表的是 T ( F ) = 6 的偏差，其均值等于 E {6} - 0 . 这个偏差的 
Bootstrap 估计是 E*{P} — 0 =沪 — 瓦其中沪=參 9；/ B . 
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例 9.4 (铜-镍合金数据，续）对于例 9.3 的铜-镍合金回归数据，由 Bootstrap 
伪数据集所得的沪均值为 -0.001 25,也就是一个比较小的负偏差.因此， 
0 iIPq 的偏差修正后的 Bootstrap 估计为 -0.185 07 - (-0.001 25) = -0.184. 通过 
9.3.2 节第4部分中的 Bootstrap 嵌套方法可以很自然地将偏差估计包含入区间估 
计中. 口 

我们通过很少的工作就可得到一个改进的偏差估计.令戶/表示第 j 个 Boot¬ 
strap 伪数据集的经验分布，且定义 F *( x ) = f： 巧⑻ /B •则沪_ T(F*) 躭是一个 
更好的偏差估计.我们将在 9.5 节中讨论该与 Bootstrap 打包法的比较.关于 
这些方法以及其他一些偏差修正的特点的研究显示使用具有较出色的 
效果及更快的收敛速度 [159]. 


9.3 Bootstrap 推断 

9 . 3.1 分位点方法 

用 Bootstrap 模拟来对一元参数0进行推断的最简单方法是使用分位点方法 
构造一个置信区间.也就是从 Bootstrap 所得到的关于沪的直方图上读取分位点. 
实际上此方法己隐含在前面的讨论中了. 

例 9.5 (铜-镍合金数据，续）回到例 9.3 所介绍的铜合金回归数据中对0 = 
A/A) 的估计问埋.回想图 9.1 给出了歹的抽样方差作为0的估计.基于分位点方 
法我们可通过在直方图上找到 （(1 - a/2)100> 和((«/2)100)的经验分位点来构造 
Bootstrap 1 -« 置信区间.使用简单的 Bootstrap 分位点方法所得到关于 0 義的 
95% 的置信区间为 (-0.205, -0.174). 口 

进行假设检验与估计置信区间是密切相关的.使用 Bootstrap 进行假设检验 
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159] 中所描述的方法. 

尽管 Bootstrap 分位点方法使用简单，但是其容易得到有偏的不精确的覆盖率. 
当0 是位置参数的时候， Bootstrap 方法具有更好的效果.这对于使用分位点方法来 
说格外重要.为确保 Bootstrap 的效果， Bootstrap 统计量应该近似是枢 轴的： 它的 
分布不依赖于0的真值.因为方差一稳定化变换自然地使得0(句与6独立，所 
以它经常提供了良好的枢轴性. 9.3.2 节将讨论一些依赖于枢轴量来改进 Bootstrap 
效果的方法. 


我们可通过考虑一个连续严格单增的变换0和一个连续对称（也就是 H(z) = 
1 - H(-z)) 的分布函数 W 来验证分位点方法的合 理性. ♦和 H 具有如下的 性质： 

P [^a/2 < - 4>{9) < = 1 - a, (9.1) 

其中，心是丑的《分位点.举例来说，如果少是一个标准化且方差稳定化的变换， 
则 if 是标准正态分布.原则上，当 F 连续时我们利用单调变换 G-\F{x )) 可将任 
意随机变量 X~F 变换至我们想要的分布 G. 所以对于标准化没有特别之处.事 
实上,分位点方法的显著之处在于我们从来都不真正需要显式地确定少和孖. 

对 (9.1) 使用 Bootstrap 原贝II，我们有 

1 - orwP* 卜/2《州 *) -彡(的 < 九1-。/2] 

=P* 卜。/2 + 必< 州 •) < ^1-0/2 + 洽(叫 
=p* [r l (h a/2 + 痛 、< 沪 < 多- 1 (h x . a/2 + ^(0))] . (9.2) 

由于 Bootstrap 分布是观测到的，其分位点就是已知的分位数（除了一定程度的 
Monte Carlo 变差，而这样的变差可通过增加伪数据集的数目丑而变得任意小). 
令表示沪的经验分布函数的 a 分位点•则 ^(h a/2 + 4>{^)) »匕/2以及 
0 -1 (fh-a/2 + <K 谷)) 対 il-a/2- 

接下来，我们重新表示用于构建置信区间的原始的概率等式 （9.1) 以使其与0 
无关. 使用对称性；》« /2 = -Ai_ a/2 bT # 

p[r l (h a/i + 4>0)) O < 0- 1 (fci-a/2 + m)] = l-a. (9.3) 
上式中置信区间的边界与 (9.2) 中的刚好吻合，而我们已经得到了估计^ /2 和 
Ci-a/2 - 因此，我们可简单地从 Bootstrap 分布中读取沪的分位数，然后用它们 
作为0的置信区间边界.注意到分位点方法是交換保持的，也就是说0的单调变换 
的置信区间与0本身的区间的变换是一样的 [159]. 



9.3.2 枢轴化 

1. 加速偏差修正分位点方法， BC a 

加速偏差修正分位点方法 (BC a ), 通常能够对简单分位点方法提供大量的改进 
[142, 155]. 若想使基本的分位点方法很有效,那么我们必须要求变换后的估计夕(力 
是无偏的，且其方差不依赖于 0. BC^ 用两个参数增大4来更好地满足这些条件, 
因此确保了近似枢轴性. 

假设存在某单调递增的函数4以及常数 a 和6,使得 


(9.4) 


具有 ^(0,1) 分布，其中1 + > 0. 注意到如果 a = & = 0,这个变换就是简单 

分位点方法. 

使用 Bootstrap 原則， 


U* = 



T+^T 


(9-5) 


近似地服从标准正态分布.对于任意标准正态分布的分位点 


=/>• p* < 多一 1 (^ + (^-6)(1 + a^(§)])]. (9.6) 

然而，&的经验分布的 a 分位点,记作匕，可从 Bootstrap 分布中观测得到.因此 
<t>~ x (^ + («a-6)[l + (9.7) 

为了使用 （ 9.7 )， 考虑1/ 本身： 
l-a=P[U > z a ] 

=P [0 < 炎- 1 ㈣ + u(a,6,a)[l + 喊補， (9.8) 

其中 u(a,b,a) = 注意到 （9.6) 和 （9.8) 的相 似性. 如果我们可以找一个 

/3使得 «(a, a) = z 0 -b, 那么我们就可使用 Bootstrap 原则认为0 < ^近似是 
1-a 的置信区间上界.使用这个条件的逆函数可得 

H + —A a)) -<6 + 1 U (9.9) 

其中0是标准正态分布的累积分布函数，而最后的等式是由对称性得到的.因此， 
如果我们有适当的 a 和&，则为了得到1 - a 的置信区间上界，我们可先计算久然 
后使用 Bootstrap 伪数据集找到沪的经验分布的沒分位点，也就 是幼. 


置信区间，使用该方法得到 i> [U 0 W «1 - «，其中 


‘的 Bootstrap 值所对应 9( 


且仏和纵是沪的 Bootstrap 值所对应的分位点 • 

作为分位点方法,上述 BC a 的优势在于不箱要变换0的显式表达.进而，由于 
BC 0 方法仅仅修正了用于决定从 Bootstrap 分布中读取的置信区间端点的分位数 
水平,所以它具有简单分位点方法的变换保持性质. 

现在剩下的问题就是关于 a 和6的选择.最简单的非参数选择是 b=ir\F*(e)) 


„ 广 


卜观测值计算得到的统计量，且 <) =去 ->r 




其中么表示在观测 Xi 从0跳至1的分布函数（即在 x< 的密度是1〉. （9.14) 中的 
洳可通过有限差分来 近似. Shao 和IX!探讨了这些问题并给出了其他一些 a 和 fc 
的选择方法 [501], 

例9. 6 (铜 -镍合 金数据，续）我们继续探讨例 9.3 中所介绍的铜-镍合金数据的 
回归问题，这里可得 a = 0.048 6 (利用 （9.13)) 及 b = 0.008 02. 则调整后的分位数 
为 A = 0.038 和汍 = 0.986. 因此 BC a 的主要效果就是将置信区间略微地右移. 
最终所得的置信区间为（-0.203, -0.172). 口 


另一种非常容易实现的近似枢轴方法是 
strap [153, 159]. 假设 d = T{F) 由？ = r( 芳 
使用 r { x , f ) = 是较为合理的.对 






间可由如下关系获得 


^Ka/2(G) < R(X,F) ^ 6_。 /2 (甸] 

= P [ 歹 _ <e^e-y/nf)^ / 2 (G)\ 


其中 UG) 为占的 a 分位点.由于 F 是未知的（因此 G 也是)，这些分位点是 
未知的.然而， Bootstrap 原则意味着 g 和占 • 应该大致相同，所以对任意的 a, 

t 1 六 \ 〜 t irn\ ffliM* nTKi^r-fnt-CMt _W 洽 



是在分布的尾部,所以为了达到足够的精度，至少需要数千的 Bootstrap 伪数据集. 
例 9.7 (铜-镍合金数据，续）我们继续探讨例 9.3 中所介绍的铜-錄合金数据的 
回归问题，基于 delta 方法的 Br/00 的方差估计 V(P) 为 


( I 牌乎 ㈣ _ 

其中估计的方差和协方差都可由基本的回归结果得到.使用 Bootstrap t 方法则可 
得到图 9.2 所示对应 d. 的直方图.泛的 0.025 和 0.975 分位点分别为 -5.77 和 
4.44,且 yjv(f) = 0.002 73. 因此, 95% 的 Bootstrap t 置信区间为 (-0.198, -0.169). 



图 9.2 铜合金数据的学生化 Bootstrap 分析中由10 000个 R(X\F ) 所得到的直方图 
这种方法需要？的方差估计，即 V(F). 如果没有合适的估计,则可使用 [122] 
中的 delta 方法来近似. 




通常能够得到非常接近. 

一个位置参数（也就是若给所有数据值一常数位移则 T(F ) 会体 
J 位移), Bootstrap* 方法最可靠.该方法对于方差-稳定化的估计也很有 
: apt 区间的覆盖率对数据中的异常点比较敏感,故在此情况下使用该方 
3小心. Bootstrap t 没有分位点方法所具有的变换保持的性质. 


.穗定化 
i 定化变接 


响 ) = E ~ ^*) 2 ( 917 ) 

为给定没=号下吞标准误的估计. 

对点集 两购 }，j = 1，… ，历 拟合一条曲线.可参见第11章中许多灵活的 
非参数的方法.拟合的曲线是0和它的估计的标准误之间关系的一种估计.我们试 
图寻找一个方差-稳定化变换来消除这种关系. 

回想如果 Z 是一均值0 方 Mm 的随机变量，则由 Taylor 展开（也就是 delta 
方法）可得到 ^{giZ)}^ ^(6)^(6). 若想使 g(Z) 的方差为常数,我们需要 



其中 a 是任意方便的常数使得&在 [a, 4上是连续的.因此，我们可通过对前 
一步的拟合曲线使用 (9.18) 来获得 Bootstrap 数据的一个？的近似方差-稳定化变 
换.积分可由第五章中的数值积分技术来近似.记结果为 m. 

现在我们已经估计了一近似方差-稳定化变换，接下来就可在变换后的尺度上 
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4. 嵌套 Bootstrap 及预枢轴化 


另一种枢轴化的方式是嵌套 Bootstrap [23, 24]. 有时也称该方法为迭代或者双 
&型 XL - .Xn-U.d. F 观测得到的数据 *!,••• ,*n, 考虑基于检验 



检验问题， F 的原假设是己知的.而在上述两种情况中， flo 的分布均 未知. 我们可 
以利用 Bootstrap 方法近似凡及其分位数 • 


Bootstrap 方法一开始先从经验分布 P 中抽取 B 个 Bootstrap @数 - 集， 





















下， Bootstrap 方法比前面的方法要多抽取9 i 
如可以重复使用初始样本的 Bootstrap 循环:? 























9.4.2 反向 Bootstrap 方法 


一元数据样本,XI , - - , x n , 按大小顺序排列后，定义为 a : ⑴,… ， a ：( n )， 其中 印） 
为第 i 个次序统计量的值（即，第 i 小的数据值).令 Tr ( i ) = n-i + l 为次序统 
计量反方向排序的 算子. 则对每一个 Bootstrap 数据集 <• = ， A ^}, 令 

x** = { xr , - - - ，&•}为尤 • 中的每一个义⑴替换成 x ( w ( i )) 而获得的数据集.因 
此，例如，如果尤*中较大的观测值占主导地位，则在 V 中较小的观测值将占据 
主导地位. 

用这种方法，毎一个 Bootstrap 抽样可给出两个 估计： 庐）和 R(AT^F). 
这两个估计常常是负相关的.例如，如果在样本均值中是单调统计量，则这两个 
估计可能是负相关的 [349]. 

令 Ra{X\F) = •，巧+州尤“，巧).则凡有所需的性质，即如果协方 

差为负,那么所估计的感兴趣的置的方差为 

wex{Ra(X\F)}= J ( var { fl (^*, ^)} + var { fl ( AT **, F )} 
+2cov{R(X\F),R(X mm ,F)}) 

^{R{X\F)}. (9.22) 

还有一些巧妙的方法可用来建立多元数据排序，从而也可使用反向 Bootstrap 
方法 [257]. 

9.5 Bootstrap 方法的其他用途 

将尤*看作分布 P 的一个随机样本, P 中含有未知 参数式 Bootstrap 原则可 
看作近似似然函数的工具. Bootstrap 似然是与经验似然密切联系的一种方法.通 
过给似然成分随机加权的方法,我们可得到一种 Bayes Bootstrap 方法 [469]. 这种 
方法的进一步推广称为加权似然 Bootstrap 方法，它是一种在某些困难的情况下近 
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巨个平稳时间序 3 
I 尤的方差为 i 
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U,T 可为两个组观测值均值 


为这不会影响最后观测的结果.由于这样做没有意义,我们可以随机给老鼠换标签 
而不改变数据的联合零分布.而重换标签可以创建一个新的数 据集： 虽然我们得到 
原始观测的一组值,然而重新分配后得到的不同的治疗组和对照组又会带来新的结 
果.由于实验是随机分配的，因此每个置换数据集被观测到的可能性与实际数据被 
观测到的可能性相同. 


令是从第一次置换标签得到的数据集中计算出的检验统计量的值.假设对 
所有的 M 种可能的标签置换（或者是大置的随机选择的置换）计算检验统计量的 
值，从而得到 t 2 ,- - ,*M- 



此方法通常被称为随机化检验_反之,标准的参数方法和 Bootstrap 方法是建立在 
渐近理论基础上的，这对大容量的样本很有意义.其次，置换检验与 Bootstrap 相 
比往往有更大的势.然而，置换检验是一种专门用来比较分布的工具，而 Bootstrap 
检验的是关于参数的假设，因此后者需要的条件没有那么严格同时有着更大的灵活 
性.相比置换检验给出的纯粹的 R 值, Bootstrap 方法可给出更可靠的置信区间和 
标准误差.而置换分布中观测的标准差并不是一个可靠的标准误差估计.其他关于 
选择置换检验或者 Bootstrap 方法的指导参见 [159, 240, 241]. 





















t 的数量达到某个中等水平才能够保证维持总体数量在 
本水平出现在45°直线与和5对应曲线的交点处. 
拟合 Beverton-Holt 模型，并寻找稳定总体水平在 R 
strap 方法获得一个与你的估计对应的95%的置信 E 
方法： Bootstrap 残差以及 Bootstrap 观测.画出4 
并说明所得结果之间的区别. 

给出一个偏差修正的估计以及该修正估计对应的标 M 




















非参密度估计 


本章考虑用来 


' 的独立随机变量 X U …， X n 的一组观测对/ 
t 估计 .10.4 节将介绍一些多变量密度函数估计 



一个很好的表示工具，这是因为它对分布提供了一个简洁美观的汇总.最后，密度 
估计也可作为其他计算方法的工具，包括一些模拟算法和 MCMC 方法. 关于密度 
估计的综合性专著包括 [492,507,553]. 


密度估计问题的参数解首先假设一个参数模型， X 1 , - ,A： n ~i.i.d. / x 妒其 
中0是低维参数向童.参数估计0可通过一些估计方法得到，如极大似然、 Bayes 
或矩方法估计.在 * 点处导出的密度估计是 /x|0(*|«). 该方法的危险性在于起点： 



加准确的观点. 


一类常见的非参密度估计是直方图，它是一种分段常数的密度估计.多数软件 
包都可自动生成.人们例行地使用直方图，以致很少考虑其背后的复杂性.位置、 
宽度及柱子个数的最优选择都要基于复杂的理论分析. 

另一类基本的密度估计可通过考虑密度函数如何将概率分配到各区间上而受 
到启发.现观测到一数据点=勿，如果/足够光滑，我们假设/将某概率不但 
賦予叫点，而且陚予灼周围的一个 区域. 因此，要从 A ，…，及〜估计/， 
将不周围区域的概率密度累加起来是合理的. 








10.1 绩效度量 


为更好地理解密度估计量的好坏，我们必须首先考虑如何评价密度估计量的性 
质.令/表示给定常数时/的估计量，该用来控制构造/时概率密度贡献的 
局部程度.小的/I表示 /Oc) 应该更多地依赖 Z 附近观测的数据点,而大的表示 
远的数据和 a： 附近的观测有几乎相等的权重. 

/作为整个支撑区域上/的估计量，要评价其好坏,应用积分平方误差 

lSE(h) = J^ (/(*)- f(x)) 2 dx. (10.2) 

注意, ISE ㈨通过/⑷是观测数据的函数.因此它在观测样本的条件下总结了 / 
的表现.在不考虑特殊观测样本的情况下，如果我们想讨论估计置的一般性质，那 
么在所有可能观测的样本上对 ISE(h) 进行平均是比较合理的.积分均方误差是 
MKE(/t) = E{ISE(A»)}, (10.3) 

其中期望是关于分布/的.因此 MISE(h) 可看成是误差（即 ISE(fc)) 关于抽样密 
度的整体度量的平均值.又由期望和积分的可交换性， 

MISE(/i) = J MSE h (f(x))dx, (10.4) 

其中 

MSE fc (/(x)) = E{(/(a:)- /⑻) 2 } = var{/(x)} + (bias{/(x)}) 2 (10.5) 

且 bias{/(»)} = E{f(x)} - f(x). 等式 (10.4) 表明 MISE(ft) 可看成是在每点 x 处 
对局部均方误差进行累积. 






对多元密度估计， ISE(70 和 MISE ㈨可类似定义.具体来说， ISE (/ i) = J [/(*)- 
/(arJl^.MISE (/ l ) = E{ISE(h)}. 

MISE ㈨和 ISE ㈨都是度量估计/质量的,而且每个都可用来研究选择 ft 值 
的准则.关于这两个方法的好坏一直是争论的一个焦点 [249,260,313]. 损失和风险 
这两个统计概念之间的区别是关键的.使用 ISE(/!) 从概念上来说是很好的，因为 
它用观测数据来评价估计量的 表现. 然而, MISE(h) 是一种基于 ISE 评价的近似同 
时又是反应在许多数据集平均意义上寻找最优表现这一目标的有效方式_在下面 
的章节中，这两种方法都会遇到. 

虽然为了简单和出于习惯，我们只关注基于平方误差的表现准则,但是平方误 
差并不是唯一的合理 选择. 比如， 用 h 雛 J |/(x) - f(x)\dx 及其相应的期望替 


换积分平方误差和 MISE(/i) 也是有很多合理理由的.特别地，心范数在单调连续 
的尺度变换下是不变的 . 仏这种与尺度无关的性质使它成为/和/靠近程度的一 
种整体度量. Devroye 和 Gyorfi 研究了用 M 进行密度估计的理论，并提出该方法 
的其他优点 [138,139]. 原则上，估计量的最优性依赖于评价表现所采用的尺度.因 
此采用不同的尺度支持不同类型的估计量.然而实际上，除尺度外很多其他因素— 
般也会影响密度估计的质量. 


10.2 核密度估计 

方程 (10.1) 中给出的密度估计把 i 附近/»范围内的所有点施以同样的权重 • 
一元核密度估计允许更加灵活的加权方案，即拟合 

/( 和 去炉(甲). _ 

其中尺是核函数,为固定值，通常称为窗宽. 

根据 不和; T 的接近程度，核函数把每个不对核密度估计六: C) 的贡献给出权 
重.通常，核函数处处为正且关于零点对称 .A： 通常表示密度,如正态或学生 t 密 
度.其他一般的选择包括三权重 (triweight) 核和艾氏 （Epanechnikov) 核（见 10.2.2 
节), 它们和我们熟悉的密度并不一致.注意，一元均匀核，即 K(z) = |1 {W<1} ， 产 
生 (10.1) 中给出的估 计量. 限制 Km&J z 2 K(z)dz = 1可使 /i 具有密度 if 的尺 








K 进行 n(n-l) 次计算.因此，/的计算童随 r» 的增加而迅速增加.然而对多数实 
际问题,如对密度作图，躭不必在每个点上计算估计.实际的方法是在0：值的格 
子点上计算/»,然后在格子点间线性内插.几百个值的格子点通常足够使/的 
图形看上去比较光滑了.计算核密度估计一个更快更近似的方法是把数据先合并 
成几组，然后把每个值四舍五入到最近组的中心 1274]. 这样，核只需要在每个非空 
组的中心计算就行了，其中密度贡献用每组的计数来加权.这样当 n 非常大以致难 
以计算每个以不为中心对/的单独贡献时，可大大减少计算时间. 

10.2.1 宙宽的选择 

窗宽参数控制密度估计的光滑度.由（10.4> 和 (10.5) 我们看到, MISE(/») 等于 
积分均方 误差. 这表明窗宽的选择是/的偏差和方差之间的一个折衷.这种折衷 
几乎是所有模型选择中普遍存在的问题，包括回归、密度估计和光滑技术（见第11， 
12章).小窗宽得到的密度估计会有很多 摆动， 这表明由于不够光滑而产生了高度 
变异.大窗宽会光滑掉/很多重要的特征，因此会有偏差. 

例 10.1 (双峰密度）窗宽的效果见图 10.2. 该直方图画的是来自于 N(4,l 2 ) 和 
N(9,2 2 ) 两密度等权重混合的100个点的样本.采用标准正态核的三个密度估计 
同时也附在图中，其中/! = 1.875( 虚线)， h = 0.625( 粗线)，/I = 0.3( 实线).窗宽 
h = 1.875 显然太大，因为它产生一个过度光滑的密度估计，不能显示出/的双峰 








样变异性的众多影响. 



图 10.2 来自例 10.1 中双峰分布的100个数据点的直方团及三个正态核密度估计.估 
计分别对应于宙宽 fc = 1.875( 虛线)， fc = 0.625( 粗线）和 fc = 0.3( 实线） 

接下来的几节将讨论选择/I的几种方法.当密度估计主要用作探索性数据分 

析时,基于目 测的醣 度选择也是可以的，而且导致最终选择的这一试错过程本身也 

可能对密度估计中观测到的特征的稳定性有更深入的了解.实际上，我们只需对/ 1 
试一串值，然后选一个能足以超过某《值的值，其中比 阚值更 小的窗宽使得密度估 
计的特征变得不稳定或者密度估计呈现明显的局部摆动以致未必表示/的峰值.虽 
然密度估计对窗宽的选择是敏感的，但需要强调的是在任何应用中都有不止一种正 
确选择.实际上,相互在10%~20%范围内的窗宽从定性上常常会得出相似的结果. 

希望有一个相对更正规的窗宽选择程序的情况也时有 发生： 如对自动算法，对 
数据分析初学者或在很大程度上对客观性或形式有要求时.文献 [316] 在方法上给 
出了全面的 综述； 其他比较好的综述包括 [27,77,315,426,492,502,507], 

要理解窗宽的选择,进一步分析 msm 是有必要的.假设 K 是对称连续的 
概率密度函数，均值为零,方差0 < 碎 < oo .令 i?(g) 表示给定函数 S 的粗糙度的 
度量,定义为 

R{g) = ]g\z)Az. (10.7) 

然后假设 R{K) < oo 且/足够光滑.本节中，这就意味着/有二阶有界连续导数 
且 R{f) < oo; 对以后讨论的某些方法还要求有高阶光滑导数.注意 

MISE(ft) = J MSE fc (/(o:))cLr = J var{/(*)} + (bias{/(x)}) 2 dx. (10.8) 

允许当 《 — oo 时 n/»-oo，h — 0, 我们将进一步分析该表达式. 

要计算 (10.8) 中的偏差项,注意到应用变量变换有 

E{f\x)} = l (u)du 

= J K(t)f(x-ht)6t. (10.9) 






然后在 (10.9) 中用 Taylor 级数展开 


(10.10) 


/(*-/»<) = /(*)- htf\x) + h 2 ef\x)/2 + o(h 2 ), 


替换并注意到 if 关于零点对称可得 

E{/»} = /(*) + h^ K f\x)/2 + o(h 2 ), (10.11) 

其中 o(h 2 ) 是当 - 0时趋向于零比九 2 速度更快的一个童.因此 

(bias{/(x)}) 2 = h*<rj c [f ， \x)) 2 /^ + o(h% (10.12) 

且该表达式对 a: 积分可得 

I (bias{/(x)}) 2 dx = ^/2(/ m )/4 + o(A 4 ). (10.13) 


计算 (10.8) 中的方差项可釆用类似的 方法： 

— =>{>(甲)} 

=忐/ 嘛 举-汴糾早 )}] 2 

= ;/邱) 2 [，⑻+心肿_ ^(*) +。⑴卩 
= i/(x)fl W + 0 (i). (10-14) 

将其对3：积分得 

畑恤=雙 +0 ⑸. (10.15) 

因此 

mSE(h) = AMISE(/i) + o ( 士 + A 4 ) ， (10.16) 

其中 

AMISE W = ffi + ^£i (10.17) 

称作漸进均方积分 误差. 如果当 n -» oo 时 -» oo,/i — 0,则 MISE(ft) -* 0, 
这就证实了在本章介绍中讨论均匀核估计时的直观印象.可以证明， (10.16) 中的误 
差项等于 0{n-^+h 5 ), 关于平方偏差更详尽的分析见 [491], 但我们最感兴趣的是 
AMISE. 
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要关于/I最小化 AMISE(h), 我们必须把/I设在某个中间值，这可避免/过 
大的偏差以及过大的变异性.关于 A 最小化 AMISE(/i) 表明最好是精确地平衡 
(10.17) 中偏差项和方差项的阶数.最优的窗宽是 

-闘 1 ' (1 _ 

但该结果用处并不很大，因为它依赖于未知密度 /. 


注意最优窗宽有/» = Otn- 1 /*), 这种情况下 MISE = 0(n- 4 /S). 该结果显示了 



许多窗宽选择策略的出发点是把/作为/估计量时的某个质量度貴和 A 发生 
联系.该质量用某个 (3(A) 量化,优化其估计以寻找 ft. 

如果在某种意义上根据对观测数据的拟合程度来评价/的质童,那么观 
测数据就使用了 两次： 一次是通过数据计算/，另一次是求/作为/估计 量的质 
量.这种两次使用数据对估计量的质量提供了一个过于乐观的观点.当选择的估计 
量以这种方式误导时,该估计量倾向于带有太多的摆动或虚假峰值而出现过度拟合 
(即光滑不足 >• 

交叉验证可对该问题作出纠正.计算/在第 i 个数据点的质量时,模型用除第 
i 个点之外的所有数据拟合.令 

1 - i{Xi)= h^T)^ K (^T^) (1019) 


的函数，以便把拟合/来选择和评价/来选择 h 区分开来. 

虽然交叉验证在散点光滑的跨度选择策略中非常成功（见第11章)，但对密度 
估计的窗宽选择并不总是有效的.通过交叉验证方法估计的&可能对抽样变异性 
非常敏感.尽管在实际和某些软件中一直使用这些方法，但复杂的插入法是一个更 









可靠的方法，如 Sheather-Jones 方法 (10.2.1 节第2部 分). 尽管如此，交叉验证方 
法介绍的思想在很多情况下都是有用的. 

交叉验证中一种简单的选择是令0㈨为 [148,252] 中提出的伪似然 

PUh) = f[U(Xi). (10.20) 

通过最大化该伪似然来选择窗宽.尽管该方法简单直观,但其得到的密度估计常常 
有太多摆动且对异常值过于敏感 [493]. 通过最小化 PL(h) 获得跨度的核密度估计， 
其理论极限表现也不好.很多时候估计量不是相合的 [489]. 

另一种方法是把积分平方误差重新写成 

ISE(ft) = J p(x)6x-2E[f(x)} + J f(x) 2 dx 

= R(f)- 2E{/(x)} + R(f). (10.21) 

该表达式的最后一项是常数且中间项可以用差|^(不）来估计.因此，通过关于 
九最小化 

VCV{h) = R(f) -玲 f-iiXi) (10.22) 

应该得到较好的窗宽 [50,472]. UCV(/») 称作无 偏交又 IHL 准则，因为 E{VCV(h) + 
«(/)}= MISE(/i). 该方法也称作最小二乘交又因为最小化 UCV(ft) 选的九 
实际上最小化了 /和/之间的积分平方误差. 

如果不可能解析计算 /?(/), 那么计算 (10.22) 最好的方式可能是另外找一个核 
来简化解析.对正态核0,根据问題 10.3 描述的步骤可以证明 


哪) ，六 (甲 M 平 )]. 

(10.23) 

该表达式不用数值近似就可有效地计算出来. 

虽然关于 A 最小化 VCV{h) 得到的窗宽渐进地与最好的可能窗宽一样好 [256, 
519], 但它收敛到最优值的速度非常慢 [259,494]. 在实际问题中，使用无偏交叉验证 
是有风险的，因为导出的窗宽倾向于对观测数据有很强的依赖性.换句话说，当对 






例 10.2 (鱸的洒游）2001年春天在阿拉斯加巴罗角附近的海冰边缘对弓头鲔幼 
仔做了一个目测调査，图 10.3 显示了 121头弓头鲸幼仔被观测的 次数. 该调査是 
—次国际合作项目，目的是为拯救该瀕临灭绝的鲸鱼种群,而又允许沿岸因纽皮特 
居民维持生计开展小范围的猎杀 [135,219,446]. 



图 10.3 例 10.2 中讨论的2001年春季湎游期间121头弓头鎵幼仔被观测的次败 . 每个 
观测数据用4月5日午夜从看到第一个成年嫁开始的小时数来表示 

向东北方向春季洄游的时间选择带有惊人的规律性，弄淸洄游模式的特征对将 
来制定这些动物的科学研究计划是很重要的.有一个猜想就是，洄游可能会按照某 
个大致的节奏出现.若果其如此,则这对研究就非常重要，因为它可使我们对弓头 
鲸的生态及储量结构有新的认识. 

图 10.4 显示了用正态核对这些数据进行核密度估计的结果,其中用三种不同 
的交叉验证准则选择关于/I最大化交叉验证的 PL(/i ) 得到= 9.75,其密度 
估计在图中用短划线表示.该密度估计差得很远，在好几个区域似乎都有虚假的峰 


图 10.4 



用正态核对例 10.2 中鲸鱼幼仔湎游数据的核密度估计，其中窗宽分别用3种不同的 
交叉验证准则选择.用 PL ㈨时窗宽为 9.75( 短划线)，用 UCV ㈧时为 5.08( 虚线)， 








插入法应用导频窗宽来估计 / 的一个或多个重要特征.然后估计/本身的窗 
宽在另一阶段用依赖于估计特征的准则去估计.最优插入法已经证实在不同应用中 
都非常有效，而且比交叉验证方法更为流行.然而, Loader 提出观点，反对对交叉 
验证方法不加鉴别的否定 [361]. 

对一维核密度估计我们知道,最小化 AMISE 得到的窗宽为 

-( 晶 r ’ （酬 

其中是把 K 看成某密度时 K 的方差.乍一看， (10.24) 式好像并无大用，因 
为最优窗宽通过其二阶导数的粗糙度依赖于未知密度 /. 现己提出多种方法估计 
州广). 

Silverman 提出一种初等的方 法：把 /用方差和样本方差相匹配的正态密度替 
换 [507]. 这就等于用 fl(/)/a 8 估计 R{f\ 其中必为标准正态密度 函数. 因此由 
Silverman 的大拇指法则得到 

h= (丟) &. (10.25) 

如果/是多峰的，那么丑(/")对 d 的比值可能要比正态分布数据时大.这就导致了 
过度 光滑. 比较好的窗宽可通过考虑四分位区间鉅 (IQR) 得到, IQR 是一个比夕更 
加稳健的散度 度量. 因此， Silverman 建议在 （10.25) 中用 a = min{a,IQR/(*- 1 (0.75) 
-*- 1 (0.25))}»min{a,IQR/1.35} 替换么其中*是标准正态累积分布函数.虽然 
该方法简单，但不建议通用，因为它往往过度光滑.然而作为产生近似窗宽的一种 
方法， Silverman 的大拇指法则还是很有价值的，这种窗宽对复杂的插入方法中使 
用的各量的导频估计是有效的. 

(10.24) 中 R{j") 的经验估计是比 Silverman 的大拇指法则更好的 选择. 基于 
核的估计量为 


(10.26) 
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其中 h 为窗宽， i 为用来估计 /" 的充分可微的核 函数. R ( f ") 的估计直接从 
(10.26) 可得. 

估计/的最优窗宽和估计 /" 或 R ( f ) 的最优窗宽是不 同的. 认识到这—点 
很重要，因为估计 /" 时 var{/"} 对均方误差贡献的比例比估计/时 var{/} 对均 
方误差贡献的比例大 得多. 从而估计 /" 要求较大的窗宽.因此我们预计 ho > h , 
这与一个函数的导数比函数本身更光滑这一趋势是一致的. 


假设我们用窗宽为知的核 L 来估计叫/")，用窗宽为 h 的核尺来估计/•那 



对找窗宽结果是一个两阶段的过程,称为 Sheather-Jones 方法【315,503].在第一 
阶段，用简单的大拇指法则计算窗宽该窗宽用来估计 Rif ), 这是最优窗宽表 
达式 (10.24) 中唯一未知的.然后通过 (10.24) 计算窗宽 fc 并产生最后的核密度估 


对用导频核 L = cf > 的一元和密度估计， Sheather-Jones 窗宽是解如下方程得到 
的/!值 



•(HP 广 
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a = 0.920(IQR)/n"' 
b = 0.912(IQR)/n 1 / 9 , 

^ 为正态密度函数的 i 阶导数 ,IQR 为数据的四分位区间距. (10.28) 式的解可通 
过格子点搜索或第2章中的寻根策略，如 Newton 方法得到. 

Sheather-Jones 方法一般表现非常好 [315,316,427,502]. 还有很多其他的方法, 
它们是基于对 MISE (…或其极小值进行精心选择的近似值 [77,261,262,314,426], 每 
种情况下，仔细选择各个量的导频估计对保证最终窗宽的良好表现起了至关重要的 
作用.有些方法给出的窗宽渐进收敛到最优窗宽的速度甚至比 Sheather-Jones 方 
法还要快很多，这些方法在某种情况下都可能是有用的选择.然而，这些方法在实 
际中没有一个能比 Sheather-Jones 方法更容易搡作或表现更好. 

例 10.3 (鱅鱼洄游，续）图 10.5 解释了对例 10.2 中介绍的弓头館洄游数据如何 
使用 Silverman 的大拇指法则和 Sheather-Jones 方法. Sheather-Jones 方法给出的 
窗宽是10.22,相应密度估计见图中实线.该窗宽看上去有点儿太窄，且得到的密度 
估计摆动太多 • Silverman 的大拇指法则给出 32.96 的窗宽，比以前任何方法给的窗 
宽都大.导出的密度估计可能太光滑了，并隐藏了分布的很多重要特征. n 



自从4月5日午夜后的小时败 

图10_5对鲸鱼幼仔酒游数据用正态核及三种不同准则选择的窗宽得到的核密度 
估计.用 Sheather-Jones 方法得到的宙宽为 10.22( 实线)，用 Silverman 
的大拇指法则得到的窗宽为 32.96 (短划线)，用 TterreU 的极大光滑跨度 
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具体来说， TerreU 考虑对所有/都最小化 (10.29) 的所有 /i 的全体,并建议选 
择最大的这种窗宽.换句话说， (10.29) 的右手边应该关于/最大化.这使窗宽选择 
不易出现光滑不足的情况.由于当/的方差趋于零时 RU") 也趋于零，因此最大 
化是在/的方差和样本方差沪成比例的条件下进行的. 

(10.29) 关于 J 限制下的最大化是变量微积分的一种应用.最大化 （10.29) 的/ 
是一个多 项式. 用其粗糙度替换 （10.29) 中的 R(f ") 可得 

卜 3 ® 1 、 _。) 

作为选择的窗宽•表 10.1 给出了某些常用核的 ft(K) 值. 
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1. 艾氏核 

假设尺为各阶距有限、方差为1的有界对称密度. Epanedmikov 证明了关于 
K 最小化 AMISE 等价于在这些限制条件下关于 iC 最小化 R{K)[162}. 该变分学 
问题的解是密度为 ^K*(z/y/5) 的核，其中 P 为艾氏核 

[ |(1 -^ 2 ),若 ,、 

K a (z)=\ 4 (10.31) 

[ 0, 其他. 

这是以零为中心的对称二次函数，其众数在中心处达到且在支撑的边界下降到零 • 
从 （10.17) 和 （10.18) 我们看到,对用正核 K 的核密度估计,最小的 AMISE 为 
\W K R{K)/n)^R(n^- 从而换成使 o K R{K) 加倍的 K 后要求把 n 也加倍才能 
使 AMISE 保持同样的最小值.因此， a K2 R{Kn)I^K x R{Ki)) 度量了於和&的 
渐进相对效率.表 10.1 列出了多种核对艾氏核的相对效率.注意到，相对效率都很 



K mw { z ) = 且尺代表表 10.1 中某个原始核的形状和 尺度. 按照这 

种方式给核调整刻度可给出每种形状的典則核 [373]. 这种观点的好处主要在 


单独的 h 
注意到， 


值可以对每个典则核交换使用而不影响密度估计的光滑程度. 

对用窗宽为 /i( 即表 10.1 中窗宽为 h5(K) 的核）及 C(K s(k) ) 


= (< t k R {K))^ 的典则核时得到的估计来说， 



(10.33) 




















Stone 对给定个数节点的摆放提出一种自动的策略 [340]. 他们策略的做法是在最 
小和最大观测数据点处放置节点，其他节点放在关于中位数对称分布的其他位置， 
但不是等间距的. 

要放置给定个数的节点，令表示数据的第 i 个次序统计量，* = 1, 

因此 a: ⑴为最小的观测值.定义一个近似分位数函数 g (^)= a：(i), 1 < i < n, 其 


中对非整数 i，g 的值通过线性内插得至 
对一列数0 < r 2 < r 3 < …< rj 
9(r 2 ) ，…，如 -0 标记的次序统计量& 






当（厂[7) = (-00,00)时，内部节点的放置由下列对节点间距的限制所决 定：对 
M/2, 


n(r<+x -n) = 4 • max{4- e，1} • max{4-2c,l} -max{4- (t - l)c, 1}, 

其中 n = 0 且 《 的选择满足当 M 为奇数时 r (M+1)/2 = 1/2,或当 M 为偶数时 
rM/a+rM/2+i = 1. 其余节点的放置应保证分位数的对称,于是对 M/2 ^ t ^ M-1, 

rji^+i-i - r M -i = r <+ i - r it (10.38) 

其中= 1. 

当 (L,U) 至少一端有限时,也提出了类似的节点放置方法.特别地，如果 (L,U) 
为有限长度区间时，选择 r 2 ,-.. ,r M -i 为等距离放置，因此 n = 括. 

前面假设节点格数 M 是预先给定的.实际上可能有多种选择 ' M 的方法，但 
是选择节点个数的方法涉及一点,其中对介绍方法的完全描述超出了我们的讨论范 
围. 概括来说,该过程如下.首先把少量节点放在上面给定的位置上.建议的最小值 
为超过 min{2.5n 1 /5,n/4,n*,25} 的第一个整数,其中为不同数据点的个数.然 
后其他的节点一次一个地加到现存的集合中.每次循环中，在该节点不存在时棋型 
满足的 Rao 检验统计量最大值的位置增加一个节点 [341,520]. 无需检验显著水平， 
该过程直到节点总数达到 mi n {4nV 5 ，n/4，》i*,30} 或者由于对节点的位置或对节点 
附近的限制而没有新的节点可以添加为止. 


然后， 各节点依次逐个删除.一个节点的刪除相当于移除一个基函数.令 e = 
(<?!，•••， 表示当前棋型中参数的极大似然估计.那么检验第 i 个基函数贡献显 
著性的 Wald 统计量为 式 /SE 认 } ，其中 SE{^} 为观测的信息矩阵逆矩阵, -I'iB)- 1 



中节点个数各不相同.对 S = 1,…，令 m a 表示第 S 个模型的节点个数.为选择 
序列中的最优模型，令 


BIC(s) = -2l{e a \xi ,... ，》«) + (m a - 1) logn (10.39) 


度量第 S 个模型的质量，其中该模型相应参数向量的 MLE 为 I. 量 BIC00 是模 
型比较的 Bayes 信息准則 [321,490]; 模型质童的其他度量也可去研究.模型序列中， 
BlC{s) 最小的模型给出了选择的节点个数. 

节点选择过程的其他细节请参考 [341,520]. 关于 S>plus 和 R 语言进行对数 
样条密度估计的软件见 [97,338]. 节点的逐步添加和逐步删除是- 




[250] 中给出 • 

例 10.6 (黥鱼涸游，续）图 10.7 显示了例10. 2 中鲸鱼幼仔洄游数据的对数样条 
密度估计（实线).采用上面所示的程序，选出了一个具有7个节点的模型•这7个 
节点的位置见图中实点所示.在初始节点放置、逐步节点添加及逐步节点删除的各 
种阶段考虑过4个其他节点，但根据 BIC 准则在最终选择的模型中没有使用这些 
节点.这些抛弃的节点见图中的空心点•图 10.7 中所见的光滑度是典型的对数样 
条估计因为样条是逐段三次和二次连续可微的. 



自从4月5日午夜后的小时数 


图 10.7 例 10.6 中弓头嫁幼仔洄游数据的对败样条密度估计（实线).直方图下面的点表 
示 9P 儿使用了节点（实点）和釋儿考®了但被拒绝的节点（中空点).两种其他节 
点选择的对败样条密度估计用虚线和短划线表示，详见正文 

有时如果节点个数不足或放置不好的话，局部峰值的估计也是一个问题.图 
10.7 中其他线条显示的是两种其他节点选择的对数样条密度 估计. 效果非常不好的 
估计(短划线）是用6个节点得 到的. 另一个估计(虚线）是用图中带有中空点或实 
点的总共7个节点得到的. 口 


10.4 多元方法 

密度函数/的多元密度估计是基于从/中抽得的独立同分布的随机变童得到 
的.我们用 Xi = {X il ,-,X il> ) 表示 p 维变量. 

10.4.1 问题的本质 

多元密度估计是与一元密度估计显著不同的工作.当支播区域超过两三维时， 
对任何导出的密度估计可视化都是非常困难的.因此除非采取某些降维措施，否则 
作为一种探索性数据分析的工具，多元密度估计的用处将大减.然而，多元密度估 





计在很多更加精细的统计计算算法中是非常有用的一部分,其中对估计的可视化不 
做要求. 

多元密度估计也受维數稱根的限制.高维空间和1, 2或3维空间有很大的不 
同.用不严谨的说法来讲，高维空间浩薄无边，空间中的点只有寥寥无几的几个临 
近点.为了解释方便, Scott 定义了标准 p 维正态密度的尾部区域，即包含概率密度 
小于众数密度百分之一的所有点 [492]. 尽管当 p = 1时，只有0.2%的概率密度落 
入该尾部区域，而当 p = 10时有一半多的概率密度落入该尾部区域，当 p = 20时 
竞达98%都落入该区域. 

维数的祸根对密度估计有重要的含义.比方说,考虑基于来自 p 维标准正态分 
布的 n 个点的随机样本得到的核密度估计.下面我们涉及几种方法来构造这种估 
计量； 这里我们采用共同窗宽正态核的所谓的乘积核方法，但即使在我们的讨论之 
后也未必能理解该方法.定义原点处的最优相对根均方误差为 


o 腿 

其中/从 n 个点的一组样本用最好的可能窗宽来估计 /. 该量度量了在真实众数 
处多元密度估计的 质置. 当 p = l，n = 30时 ORRMSE(1,30) = 0.028 9•表 10.2 对 p 
的不同值列出了要和 0RRMSE(p,n) 达到同样低的值所需要的样 本量. 表中的样本 
量显示到三位有效数字.对毎个不同的 ri 和 p 用不同的窗宽最小化 ORRMSE^.n), 
因此表中的元素是通过固定 p 对 n 进行搜索计算得到的，其中对每个试验的 n 值 
都痛要对/!进行优化.该表进一步证明了理想的样本量随 p 的增加而迅速增加.实 
际应用中，情况并不像表 10.2 显示的那么差.有时可用多种方法得到充分的估计， 
尤其是那些试图通过降维来简化问题的方法. 

表 10.2 和》= 30的一维数据在原点处取得的最优相对根均方误差一样时 所需要 
的样本置.这些结果适合于 p 元正态密度的估计，其中毎种情况下使用具有 

能最小化琢点处相对根均方误差的亩宽的正态乘积核密度估计. 








其中 H 为 p x p 的非奇异常数阵，其行列式值用 |X| 表示.函数尺为实值多元核 
函数且/ K{z)dz = 1,J zK(»)dz = 0, j zz T K{z)dx = I p , 其中 为 p x p 的 
单位阵 • 

该估计童比通常要求的更加灵活.它可以使用任何形状的 p 维核以及通过 if 
允许任意的线性旋转和调整刻度.指定 if 中大量的窗宽参数以及在 p 维空间上指 
定核的形状,这都是很不方便的.比较实际的是寻求丑和有较少参数的具体形 
式. 

乘积核方法大大简化了计算.密度估计为 

其中 K(z) 为一元核函数, * =(叽， ■■■,x p ),X i = (X iU ". ,X ip ), ^对每个坐标为 
固定窗宽， j = I, -- ,p. 

另外一种简化方法允许 K 为 P 维对称单峰密度函数，且令 

这种情况下，多元艾氏核的形状 



列的 X P 的对角阵, P 为标准正交的 pxp 矩阵且列为4中特征值相应的特征 
向量.令X为样本均值•那么= A-^P^iXi - X)， i = 1，…， n 给出了变换 
后的数据.该过程通常称为白化或球化数据.对对称核 A： 来说，对变换后的数据用 
(10.42) 中的核密度估计等价于在原始数据用密度估计 

辑 个， - W ,) ) (叫 

在如上各种选择提供的复杂性范围内，从表现和灵活性来看, (10.41) 中的乘积 
核方法通常优于 （10.42) 和 (10.44). 乘积核的使用也简化了数值计算及核的刻度调 
整. 

与一元情况类似,对乘积核密度估计也可能得出渐进积分均方误差的表达式. 
最小化窗宽心,…，~为 p 个非线性方程组的解.最优的 k‘ 都是 0(n-V(P +4 >)， 且 
对这些最优的〜有 AMISE(/» 1 ,--,/ lj ,) = 0(n- 1 /(p+4) ) . 乘积核密度估计的窗宽选 
择及其他多元方法的研究远不如一元情况研究的深入. 

这种情况下窗宽选择可能最简单的方法是假设/为正态的，从而简化了关于 
hi ,--, h p 最小化 AMISE(/n,.--，V) 的 计算. 这提供了一个与一元情况下 Silver- 
man 的大拇指法则类似的窗宽选择的理论 基础. 对正态乘积核方法，得到的窗宽 
为 

办，< =1，…， P’ _5) 

其中&为第 i 个坐标方向上标准偏差的 估计. 和一元情形类似,使用文件尺度估计 
可以改善表现情况.当使用非正态核时，正态核的窗宽可用 （10.32) 和表 10.1 重新 
调整刻度以给出与所选核类似的窗宽. 

Terrell 的极大光滑原则也能用于 p 维问题.假设我们用 (10.40) 给出的一般的 
核密度估计,其中核函数为具有单位协方差阵的密度函数.那么极大光滑原则表明 
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10.4.3 自适应核及5近邻 

采用普通的固定核密度估计，尺的形状及窗宽都是固定的.这决定了一种不变 
的邻近观念 •足 附近加权的贡献确定了 /(X),其中权重根据 不和 a: 的临近程度 
确定.比方说采用均匀核，估计是根据在一个固定形状滑动窗口内观测的变量数来 
确定的. 


换个角度考虑也很有 价值： 允许区域变换大小，但要求（某种意义下）有固定 
个数的观测值落入其中.那么较大的区域对应于低密度的范围，较小的区域对应于 



时还不要光滑掉1 200和1 270之间主要的双峰，这是不可能做到的.只有窗宽周 
部的变化才能得到如此改善. 


理论上来说，当 p = 1时自适应方法比简单的方法没什么优越性，但实际上在 
某些例子中某些自适应方法表现得相当有效.对中等或较大的 p 值,理论分析表明 
自适应方法的表现可能比标准核估计方法要好得多，但这种情况下自适应方法的实 
际表现并没有被完全 理解. 关于自适应方法一些表现的比较可参考 [312,492,532], 
1. 最近邻方法 


k 近邻密度估计 














最近邻估计和球形估计都表现出很多令人吃惊的性质.首先，选择X为密 

度并不能保证/也是一个密度；例如， (10.47) 中的估计量并没有有穷积分.其 

次，当 p = 1且为零均值单位方差的密度时,选择 h k (x) = jjfcj 相比于标准 
的核估计并不能给出任何渐进的改进，不管 fc 如何选择 (492). 最后，可以证明当 
h k (x) = h(x) = 时， 一 元球形估计的逐点渐进均方误差达到最小•然 
而，即使采用最优的逐点自适应窗宽，当/大概为对称和单峰时，一元球形估计的 
渐进效率比普通固定窗宽核估计的渐进效率也没有改善太多.因此看来当 p = 1 
时，最近邻估计和球形估计都不是一个好的选择. 

另一方面，对多元数据,球形估计表现要好的多.球形估计的渐进效率大大超 
过标准多元核估计的渐进效率，即便是对相对较小的 p 值及对称单峰的数据 I532j. 
如果进一步把 （10.48) 推广为 

/(*) = ^Kmxr^x- Xi)), (10.49) 

其中 H(x) 为随着 * 的变化而变化的窗宽矩阵,那么我们有效地允许核形式的贡 
献随 ® 的变化而变化•当 H(x) = 时,一般形式又变回到了球形估计.进一 

步，令 h k (x) = rf fc (x) 将得到 (10.48) 式中的最近邻估计.关于 H(x ) 更一般的选择 
在 [532] 中有所提及. 

2. 交核方法及变換 

变核或样本点自适应估计可写成 

/•( —洁一(手)， （ i _ 

其中 K 为多元核, hi 是以不为中心的核贡献的窗宽[60]_例如，心可能设为从 
Xi 到第 fc 个最近的其他观测数据点的距离，这样心= d k (Xi ). 更一般的窗宽矩阵 








采用根据 （10.45) 选择窗宽的正态乘积核密度估计.如果/是以在某个叫可能等 
于或接近于零的估计为基础的，那么当估计超过 e 时，令 /(*) 等于估计的 密度； 否 
则令 /(*) = 选择任意小的常数《> 0通过对自适应选择的窗宽给出一个上界来 
进行改善. 

(2) 令自适应窗宽为 /k = h/f{Xi) a , 其中敏感参数0彡 a < 1.参数/I承担窗 
宽参数的作用，即可以通过调整来控制最终估计的总体光滑度 • 

(3) 对窗宽为第2步找到的心应用 (10.50) 的变核估计得到最终的估计. 
通过控制窗宽为响应/的可疑变化而改变的快慢，参数 a 影响局部自适应性 

的程度_渐进观点和实际经验都支持设定 a = 1/2,这得到 Abramson 的方法 [3] .很 
多研究者发现该方法在实际中表现很好 [507,575]. 

另一种方法是令 a = 1/p， 这得到一种与 Breiman.Meiseland Purcell [60] 的自 
适应核估计渐进等价的 方法. 这种选择保证了尺度核获得的观测数据点的个数大 
概处处相等 [507], 算法中，这些作者对/用了最近邻方法并对可能依赖于 A 的光 
滑参数/I设为~ = hd k {Xi). 

例 10.7 (二元 t 分布） 为说明自适应方法潜在的好处，考进从大小为 n = 500 
的一组样本估计二元 * 分布（有两个自由度).在非自适应方法中，我们采用正态乘 
积核，其中每个窗宽由 Sheather-Jones 方法选择.在自适应方法中，我们用具有正 
态乘积核的 Abramson 的变核方法 （a = 1/2)，导频估计取非自适应方法的结果， 
€ = 0.005, J. h 设为非自适应方法中各个坐标窗宽的均值乘以 hXi )^ 的几何均 
值. 
















Silverman 大拇指法则的正态核来确定 知， 从而得到估计 

(腿) 

其中/» 0 = V 2 d x (#) 1/13 且为标准正态密度的四阶导数[554】.由于是 
保尺度的，所以 Xu -， X n 的样本标准差，设为对知的表达式中使用的 Y 
的标准差提供了一个估计.相关导出估计的思想在 [259,492] 中有所讨论. 

我们熟悉的 Box-Cox 变换丨511 

- 网 

属于 (10.51) 中可以利用的参数化的变换族.当好的变换可用或是在多元情形下， 
变换应使数据更接近于对称和单峰,基于这种观点很有好处，因为在此情况下显然 
固定窗宽核密度估计表现很好. 

—元偏态单峰密度情况下，对变核密度估计的这种变换方法表现很好.到多元 
数据的扩展很有挑战性,且对多峰密度得到的估计也不好.如果不拘泥于上面所述 
的形式,数据分析家通常会用像对数这样的函数把变置变为合适的尺度，并记住所 
用的变换以便描述结果甚至进行推断.当需要对原始数据进行推断时,我们可以根 
据对称性及单峰性的图形评价或定貴评价寻找一种变换策略,而不是像上面所描述 
的那样在一类函数中进行优化. 

10.4.4 探索性投影寻踪 

探索性投影寻踪主要研究髙维密度中的低维结构.最终的密度估计通过修 
改标准的多元正态分布以反映发现的结构来构造.下面描述的方法来自于 FVied- 
man[181], 它推广了以前的工作 (185,296]. 

本节将会遇到多种变量的各种密度函数.因此为了记号淸楚，我们把密度函数 
加一个下标以识别所讨论的密度函数是哪个随机变量的. 

假设数据包含 P 维变量 X u --, X n 〜 i.i.d./ x 的 n 个观测.开始探索性投 
影追踪之前，首先对数据变换使其均值为0,协方差阵为 J p . 这可通过 10.4.2 节所 
示的白化或球化变换来完成.令 / z 表示变换后变量 Z u -.-, Z n 对应的密度函数. 
fz 和/ X 都是未知的.要估计/X，只需估计 /Z 然后再反变换得到的估计. 
因此我们主要关心 /Z 的估计. 

过程中的几步还依赖于另外一种基于 Legendre 多项式展开的密度估计技巧. 
Legendre 多项式是 [-1,1] 上定义为 P 0 («) = 1，巧⑷=«且对：> 2 , Pj ( u ) = 
[{2 j - - U - l ) Pj -2( u)]/j 的一列正交多项式，其有如下 性质： 即对所有 







中 $ 为标准正态累积分布函数.如果 y 〜 /V(0,1), 那么 U { Y ) r ^ Unif(-l,l). 要度 
童 y 分布的结构,只需度童 U ( Y ) 的密度与 Unif(-l.l) 偏离的程度即可. 



其中允为当 Z 〜 / z 时 U ^ Z ) 的概率密度函数.当5 ㈣ 较大时,投影数据中 
存在大量的非正态结构.当 5(a) 接近于零时，投影数据几乎正态.注意到巧《)依 
赖于允，这是必须要估计的. 

要从观测数据估计 5(a), 用加的 Legendre 展开重新把 (10.60) 式中的 R { Jv ) 
表示为 

= E (10.61) 







I 期望是 关于办 取的.由于 Uia ^) ，. - Mot T Z n ) 代表从 釦 中抽得的样本， 
10.61) 式中的期望可用样本距来估计.如果在 (10.61) 式的求和中也截去 J + 1 
I各项,我们得到 

5(a)=E^r i (^E p ^ 2 ^ aTZi )- 1 )) (10 . 62) 

I 5(a) 的估计 • 


要解决这个问题， J 

?„相应的经验分布函数替换就行了.另一种替换方法见 [298]. 
Z\ l) ,i = 1，…， n 看成是一种新的数据集.该数据集包含随机变量 
勺观测值，其未知分布 / z u> 依赖于 /z. 给定到&的投影下， / z(1) 
:件分布有重要的联系.具体来说，给定后的条件分布 
后&的条件分布,因为在生成的结构移除步骤移除了 A 的 












进行第二个结构移除步要求对一个合适的矩阵重新应用式子 （10.63), 从 
而产生新的工作变量 zi 2) ，…， Z ^\ 

重复与 (10.64) 表达的同样的条件分布项使我们把新工作变量产生的密度写为 




其中是当 名⑴〜 &⑴时的边际密度 • 

假备投影步和结构移除步都重复迭代了几次.在某个时刻，结构的识别与移除 
都会导致新变量的分布有很少或没有残留结构.换句话说,它们的分布在任何可能 
的一元投影上几乎都是近似正态的.此时,迭代停止.假设共进行了 M 次迭代.那 
么 (10.65) 式推广得到 


/z<«)(*)=/z(*)n • 




(10.66) 


1 

其中 4T Z(m -n 是当〜且〜 / z 时的边际密度 • 
M £, 等式 (10.66) 可用来估计 / z , 因为——己经从工作变量 Z [ M) 的分布中 
排除了所有的结构——我们可以令 / z « m , 等于 p 维多元正态密度，记为知.解 


可得 


fz(.z) = M*)\ 




(10.67) 


尽管该等式仍依赖于未知密度但这些可用 Legendre 近似策略去 
估计.注意,如果对/方™…有 - 1,那么 
/&W” ( 卜 ((u + _) 

2^-i((u+l)/2)) 


.. 丨 "； 


(10.68) 


通过…，得到的…，时" _1) ，用如―> 的 Legendre 展开 
及样本距来估计 


用 /趴一> 替换 (10.68) 中的并分出/ & T Z (n,-„, 可以得到 

= 2/一>(2峽 z) - 1)0(^*). 
因此，由 （10.67) 得 f z { z ) 的估计为 


Kz) = M^)T[ 读 (2i + 明 (2$(a^)-l)p, m |, 


(10.69) 


(10.70) 


(10.71) 
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其中 n 

~ ^ E 巧 (2$(a^zf- 1) )-l) (10.72) 

是用结构移除过程中储存的工作变量估计的，且=氏.通过对 /z 应用变量变 
换X = PA l ^ 2 Z + x 进行球化变换的逆变换可得到估计 / x . 

估计 /z 受数据中心部分的影响最强，这主要因为变换 U 把尨尾部的信息压 
缩到区间 [-1,1] 端点的部分.在该区间这么窄的范围内，低阶 Legendre 多项式展 
开很难获得/17的大量特征.进一步，影响每个选择的结构指数对只有投影尾 
部行为是非正态的方向不会賦以很高的结构.因此，探索性投影寻踪应该主要看成 
是一种方法,用这种方法提取密度的这些可通过数据的大小尺寸表现出来的重要低 


维特征，并重新构造反映这些重要特征的密度估计. 




















fx 表示用 Sheather-Jones 宙宽计算的 X 的正态核密度估计.注意该窗宽和 
的大拇指法则给出宙宽的比例.把数据变回到原来的尺度（即 Z = 

:合正态核密度估计/ 2 ,其中窗宽等于按以前比例缩小后的 Silver- 

子0然后用密度 

或上比较 Z 的两 

m. 并加以评论. 
微米波段流量测 

数据集也包括 F100 数据： 每个物体100微米波段总的流置测置.用 y 表 

用下面的： 


eqKAU 并拟合正态核密度估计 / z , 其中 f 
man 大拇指法则.（这是稳健尺度度量远好于> 

的变童变换公式把 /x 变回到原来的尺度，弁 

种密度估计.进一步尝试研究密度估计与非线 


:估计与非线性尺度变换: 

S 据及问题 10.1 中的变 J 

每个物体100微米波 g 

和 y 的联合密度构造二 
hi 2 .描述如何选事 


(b) 使用二元正态核，其中窗宽矩阵 H 由 Terrell 的极大光滑原则给出.找一个常I 
使窗宽矩阵 c/T 给出优良的密度估计. 

(c) 使用正态乘积核，其中每个坐标的宙宽由 Sheather-Jones 方法选择. 

⑷使用正态核的最近邻估计 (10.48). 描述你如何选择 fc. 

(e) 使用带有正态乘积核的 Abramson 自适应估计,其中按照例 10.7 的方法选择窗 
由等式 (10.22) 出发，当 K(z) = 4>{z) = 叫 皆 2J 时，按照下列步骤简化 UCV(ft) 
⑷证明 


+ -(»-i)w t^J K ^r^) K 
-六 ㉟ (甲） 


其中 A,B 
(b) 证明 /I = 
⑷证明 




⑷通过 (10.23) 完成证明. 


(10.73) 











10.5 本书的主页上有多方面的数据，它们都有很强的结构.具体来说，这些4维数据来自于 
- 个混合分布，该分布是几乎位于一个3维流形上的密度和一个填满4维空间的厚尾 
分布的混合,且前者权重较低，后者权重较高. 

(a) 估计数据的最小正态一元投影方向.用一系列的图来猜测一个非正态投影方向，或 
根据探索性投影寻踪中投影步描述的方法. 

(b) 估计在 （a) 中找到方向的投影数据的一元密度，方法不限. 

(c) 用本章的想法通过任何有价值的方式估计并（或）描述这些数据的密度.讨论所遇 
到的困难. 

























有明确假定模型 Vi = ^) +€i . 实际上,不管数据的类型如何，几乎所有的光滑函 
数都依赖于局部平均化的概 念：： C 附近而 相应的 Fi 应该按照某种方式进行平均 
以搜集： r 处光滑函数合适值的信息. 


SOckave^la^W*)}, (11.3) 

其中 “ave” 为某个广义的平均函数,为: r 的某个邻域.选择不同的平均函数 

(如平均、加权平均、中位数或 M- 估计）和不同的邻域（如最近的几个相邻点或某 


巨离内的所有点）^ 

g 化，从而在数据的 
邻域最重要的!I 


| 可以产生不同的光滑函数.一般来说, X(x) 的形式可能随: c 而 

居的不同区域使用不同的邻域大小或形状. 

度,这用光滑参数 A 表示.一般意义下,邻域的跨 
度度量了它的涵 盖性： 小跨度的邻域有很强的局部性，只包含很临近的点；而大跨 
度的邻域包含较广的范围.有多种方法度童邻域的涵盖性，包括它的大小(点的个 
数)，跨度（包含样本点的比例)，窗寬(邻域的物理长度或体积）及一些以后要讨论 
的其他概念.我们用 A 表示对每个光滑函数究竞哪个概念是最自然的. 

光滑参数控制的波动性.小跨度的光滑函数往往可以很好地再生局部形态， 
但从较远的数据几乎得不到什么信息.关于局部响应具有有用信息的远处数据被忽 
略的光滑函数会比不忽略时有较大的变异性. 

比较来说,当作局部预测时,大跨度的光滑函数从远处数据可得到许多信息.当 
这些数据之间有某些关联时就引入了潜在的偏差.调整 A 可控制偏差和方差之间 



据的光滑方法 
一步考虑. 


介绍构造局部平均光滑函数的某些策略.本章集中研究预测-响应数 
，但 11.6 节简单涉及了一般二元数据的光滑问题，这将在第12章进 


11.2 线性光滑函数 
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f 本身、预测值小于:^的最近的 （fc — 1)/2 
个点以及预测值大于私的最近的 （fc - 1)/2 个点•该 Af ( Xi ) 称作对称最近邻，而光 
滑函数常称作移动平均. 

不失一般性，今后假设数据对已按而升序 排序. 那么常跨度移动平均光滑函 
数可写作 


s fc (a!<) = mean : max(i_ ^^，1) < min ❹ + ^i，n) }. 


(11.5) 


i*(x <+1 ) = 知㈨- + (11.6) 

这避免了在每个点重新计算均值.类似的更新对预测值位于数据边缘的点也成立. 

常跨度移动平均光滑函数是一种线性光滑函数.光滑矩阵 S 的中间几行都形 
如 （0 …0 I… | 0… 0). 多数光滑问题的一个重点是如何计算数据边缘附近的 
s k ( xi ). 例如, A 的左边没有 （ A ： - 1)/2 个近邻. 5的前⑺ - 1)/2 行和后 （fc - 1)/2 
行必须进行某种调整.三种可能选择（例如对 k = 5) 分别 是：用 
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当小的一部分，因此光滑给出的总的图像受边缘处理的影响并不大,但不管这件亊 
情如何解释,读者应该意识到在数据边缘处 S 的可靠性已经降低 • 

例 11.1 (简单数据）图 11.2 显示了本章开头介绍的数据的常跨度移动平均光 
滑.该数据用我们讨论过的多种方法都可以很容易地光滑好.这些数据是来自模 
型 K = 3(x0+ €* 的《 = 200个等间距的点，其中误差项是零均值、标准差为 
1.5 的独立同分布的正态噪声.该数据可从本书的主页上下载.在图中真实的关系， 
= ^ sin{(a: + 3.4)/2},用虚线 所示； 估计 S fc (x) 用实线所示.对 fc = 13我们使 
用一个与 (11.8) 等价的光滑矩阵.从表明上来看，结果不太 理想： 也许这正强调了 
当用手画一条光滑曲线时不管人们采用什么方法都极其复杂. □ 





图11_2 * = 13时常跨度移动平均光滑函败的结果（实线)，比较于真实的潜在曲线（虚线） 
1. 跨度的影响 

常跨度移动平均光滑函数中一个自然的光滑参数是 X = k . 与所有光滑函数一 
样，该参数控制波动性，此处是通过直接控制任何邻域中包含的数据点的个数达到 
的.对排序数据和邻域不受数据边缘影响的 内点^ (11.5) 给出的 fc 跨度移动平均 
光滑函数有 







其中 a(xi) = E{Y\X = Xi }. 显然这可以重新表示为 

<+(fc-X)/2 

MSEfcCS*^)) = (biasli^xO}) 2 + T5 ^ var{y|X = x^}, (11.11) 

J=<-(fc-X)/2 

其中 

,i+(*-D/2 

bias{a fc (xi)} = a(x<) - - [ s ( x i)- ( 1112 ) 

i=i-(fc-l)/2 

为理解均方预测误差如何依赖于光滑跨度，我们使用 (11.11) 并做如下简化的假设： 
对所有 q €人»有 var{y|X = Xj} = <T 2 . 那么 

MSPE fc (S fc (xi)) =var{r|X = x,} + MSE fc (知 (s<)) 

=(1 + l/k)^ + (b^fifc^)}) 2 . (11.13) 

因此，随着邻域大小 * 的增加， (11.13) 中的方差项将会减小，但是偏差项将会明显 
增加，因为不太可能与远处 j 的 s( Xj ) 类似.同样地，如果 A 减小,那么方差 
项将会增加，但偏差项通常将会更小. 

例11_2 (简单数据，续）图 11.3 显示了 Jb 如何影响 S*. 图中， fc = 3导致一个波 
动过大的 结果. 相反， fc = 43导致过于光滑的结果,但存在系统偏差.偏差的产生主 
要是因为当邻域太大时，邻域边缘的响应值并不能代表中间的响应值.这往往会消 



2. 线性光滑函数的跨度选择 

显然 * 的最优选择必须在偏差和方差之间找一个平衡.对小 A:， 估计的曲线是 
波动的，但太忠实于数据.对大 fc, 估计的曲线是光滑的，但某些区域偏差过大.对 
所有光滑函数，光滑参数的作用都是控制偏差和方差之间的一种权衡. 






然而， 

E{RSS Jfc (S fc )/n> = MSPE fc (« fc ) - i f cov{y“ (11.15) 


对常跨度移动平均来说，对内点％有 covtKi.S^x,)} = var{y|X = Xj }/k. 因此， 
RSSfc(S fc )/n 是 MSPE fc («fc) 的一个下偏估计量. 

想要去除 V ；和 5*(®*) 的相关性，当计算％处的光滑值时可以忽略掉第 i 个 
点.该过程称作交又轮证丨 521]; 这只用来评价光滑的表现，而不用作评价光滑本身 
拟合的好坏.用表示用去掉第 i 个数据对的数据集拟合时在: Ci 处的光滑 
函数值. MSFE fc (A fc ) —个更好的（实际上悲观的）估计是 

CVRSS fc (5 fc )/n = 4~°(®i)) 2 . (11-16) 

其中 CVRSS* (知）称作交叉验证残差平 方和. 一般用 CVRSS fc (S*) 对 fc 作图. 

例 11.3 (简单数据，续）图 11.4 对光滑例 11.1 介绍的数据显示了 CVRSS fe (^) 
对 fc 的图.该图通常对小的 fc 由于方差的增加而使 CVRSS*(« fc ) 迅速增加.对大 
的 fc, 由于偏差的增加而使 CVRSS fc (i fc ) 逐渐增加.表现最好的区域位于曲线最低 
的部分，该区域常常很宽并相当平坦.本例中从比较好的选择位于11和23之间， 









法呢？最明显的一种方法是定义 



其中是 S 的第 （i，j) 元.换句话说，把 S 的第 （i,J) 元替换为零并把行中其余 
元素重新调整刻度以使行和为1,通过这种方式来改变 S 的第 i 行.这种情况下， 
要计算 CVRSS fc (s fc ) 实际上就没有必要删除第 i 个观测并对每个 i 重新计算光滑 


CVRSS fe (S fe )/n =读 2 . (11-18) 

该方法与线性回归中计算删除的残差时著名的简便算法类似[412】，并在 [280] 中做 
了进一步的证实. 

第二，我们希望通过生成较少的部分数据集，每个数据集都删除较多的数据点， 
以此来减少交叉验证计算的 次数. 例如，我们可以把观测数据集随机地分成10份, 
然后每次丢掉 一份. 那么交叉验证的残差平方和由每份中丢掉的点的残差进行累 
积. 该方法往往会高估真实的预测误差，而只丢一个的方法偏差较小但更不 稳定； 
一般建议选用5或10部分的交叉验证（即分成5~10份) [281]. 

上面我们提到，不同的光滑函数用不同的光滑参数控制波动性.到目前为止， 
我们主要关注最近临的个数 （*) 或部分 (fc/n). 另一种合适的选择是， X(x) = : 
1^ ~x\<h), 使用正的实值距离/»作为光滑参数.也有方案是根据与 a; 的接近程 
度给数据点加权的，这种情况下光滑参数可能与这些权重有关.通常在数据的边界 
附近，邻域中点的个数较少，这意味着任何通过交叉验证或其他方法给出的固定跨 
度在边界附近可能比在数据的中部拟合的更糟.跨度也允许局部变动.对这种邻域 
参数化来说，画交叉验证残差平方的图以及关于偏差-方差之间的平衡做决定都与 
前面讨论的方式类似. 









果类似.当数据不是等间距时，根据 GCVRSS 选择的跨度受对拟合有强影响的观 
测的影响比较小.尽管广义交叉验证有这种潜在的优势，但依靠 GCVRSS 常常会 
导致严重的光滑不足.插入法一般对期望的均方预测误差或某个其他拟合准则得 
出一个表达式,结果发现其理论最小值依赖于光滑的类型、真实曲线的波动性以及 
y|x 的条件方差.通过使用非正式选择的跨度（或通过交叉验证）完成初始的光滑. 
然后用该光滑来估计最优跨度表达式中的未知量并在最终的光滑中使用该结果. 

选择一种跨度选择方法使产生的图形能在肉眼看上去最舒服，这是非常诱人 
的.想法很好,但预先值得承认的是在描述一而不是推断一统计中散点图光滑常 
常是一种练习.因此从试错法或简单的 CVRSS 图选择你最喜欢的跨度，其合理性 
与随机支持任何一种技术方法差不多.由于交叉验证方法选择的碎度随观测的随 
机数据集而变化，有时还会光滑不足，因此对使用者来说，根据亲自分析和实践经 











Hi = X^XjX^Xj 的一行乘以 K 而得到（通常称私为第 i 个帽子矩阵). 
因此该光滑函数是线性的，其带状光滑矩阵5的非零元来自于每个适当的行. 
直接从 S 计算光滑函数不是非常有效.对按 a 排序的数据，较快的方法是依次更 
新回归的充分统计量，这类似于对移动平均讨论的方法. 

例 11.4 (简单数据，续）图 11.5 显示了例 11.1 中引入数据的移动直线光滑函数， 
其中交叉验证选择的跨度 * = 23. 边界影响比较小，而且光滑函数比常跨度移动平 
均光滑有较轻的锯齿状.由于真实曲线往往可通过直线很好地近似，即使在较宽的 
邻域内，因此 A; 可以从常跨度移动平均光滑的最优值适当加大.这样既降低了方差 
也没有严重增加偏差. 口 



变 fit 

图 ll_ 5 fc = 23 的移动直线光滑曲线（实线）及潜在的真实曲线（虚线） 

讨论中并不把局部拟合限制为简单的线性回归.令 8 k (Xi) % N { Xi ) 中数据的 
最小二乘多项式回归拟合在而处的值,这样可以得到移动多项式光滑函数.这种 
光滑函数有时也称作局部田归光漘函教(见 11.2.4 节>_奇数阶的多项式比较受欢迎 
[168,508]. 由于光滑函数大致是局部线性的，因此高阶局部多项式回归常常并不优 
于简单的线性拟合，除非真实曲线有非常剧烈的摆动. 

11.2.3 核光滑函数 

就目前为止提出的光滑函数而言，每当邻域内成员发生变化时，拟合函数都有 
不连续的变化.因此它们往往在统计上拟合得很好，但直观上表现得过于敏感或出 
现令人讨厌的波动. 




其中光滑参数 h 称作窗宽.注意到对许多常用核函数如正态核，所有的数据点都用 

来计算每点的光滑值,只是很远的数据点权重很小而已.临近性使一个数据点对局 

部拟合的影响有所增加；在这种意义下，局部平均的概念依然存在.因为在光滑范 

围内数据点的权重变化较小,所以大窗宽得到的结果非常光滑.而小窗宽保证临近 
点更强大的优势，因此产生较多的波动. 

光滑核的选择远不如窗宽的选择重要.不同的核函形状往往会产生相似的光滑 
函数.尽管核函数不一定是密度函数，但实际中一般最好还是选择光滑、对称、尾 
部连续地趋向于零的非负函数.因此没什么理由在正态核以外去寻找,尽管很多近 
似观点支持更多的奇异选择. 

核光滑显然是线性光滑.然而光滑的计算不能像以前有效的方法那样序贯地 
更新，因为每当 a: 变化时所有点的权重就发生变化.在等距数据这一特殊情况下， 
快速 Fourier 变换方法是很有帮助的 [267, 505]. 关于核光滑更深入的背景请参考 
文献 [484, 492, 508, 553]. 

例 11.5 (简单数据，续）图 11.6 显示了例 11.1 中数据的核光滑，其中使用正态 
核及交叉验证得到的/I = 0.16. 由于进出邻域是逐步的,故结果表现出圆滑的特点. 
然而注意到在边界处核光滑并没有去除系统偏差，移动直线光滑也是如此. 口 



預涮变霣 

图 11.6 使用由交叉驗证得到 * = o.ie 的正态核的核光滑曲线（实线） 

及潜在的真实曲线（虚线） 

11.2.4 局部回归光滑 

移动多项式光滑和核光滑有很多重要的联系 [10,268,508]. 假设数据来源于一 
个随机设计，因此它们是来自模型 {X^Yi) - f(x,y) 的一组随机样本（非随 
机的设计将预先给定而值).我们记 

«(*) = E{r|x} = J y/(y|x)dy = J y^^^dy, (11.22) 

其中边际地 X 〜 Six). 用第 10 章中介绍的核密度估计方法（及估计 f{x,y) 的乘积 







核)，对合适的核及和相应的窗宽 k 及我们可以估计 

/(X>y) = n^K^ Kx {^r) Ky (^) (1123) 

/(x) = ^% Kx (^r 1 )- (1124) 

通过在 (11.22) 式中替换 f(x,y)&f(x) 可得到 s(a:) 的 Nadaxaya.Watson 估计惫 
[406,556]’ 即 

hAx)= P^^-y (1125) 

注意到这与核光滑的形式是一致的（见 （11.21) 式). 

容易证明， Nadaxaya-Watson 估计童关于汍最小化了 

- 0 o ) 2 K x ( Z • (11.26) 

这是用常数来局部近似办）的最小二乘问题.很自然地，该局部常数模型也可用局 
部高阶多项式模型代替.根据某核函数设置的权重进行加权回归来拟合局部多项式 
就得到局部加权田归光滑，也简称为局部回归光潸 [100，168,553】.p 阶局部多项式回 
归光滑函数最小化加权的最小二乘准则 

E ⑺ -^o-Piix-Xi) - 从 X- Xi)P]^K x (^ 1 )， (11-27) 

并可用每个 a: 处的加权多项式回归去拟合，其中权重根据与 z 的接近程度由核函 
数&决定.这仍然是一个线性光滑函数，其中光滑矩阵包括每个加权多项式回归 
使用的帽子矩阵中的一行. 

最小二乘准则也可由其他选择来代替.见 11.4.1 节关于该技巧的推广,其依赖 
于稳健拟合方法. 

11.2.5 样条光滑 

也许你己发现，到目前为止本章给出的光滑曲线从视觉上有点不太令人满意， 
因为它们波动得比直接用手画出来得还厉害.它们表现出小尺度的变异，而肉眼很 
容易把这种变异归结为随机噪声而不是信号.那么光滑样条可能更适合你的口味. 

假设数据按照预测变量的升序排列，从而:^是最小的预测变量值， o;„ 是最大 
的预测变量值.定义 

Qa (S) = 一 Kxi)) 2 + xj: (11.28) 




线性光滑函教 


其中 於 (咍为 S(or) 的二阶导数.求和算是对拟合不足的惩罚，而积分是对波动性的 
惩罚.参数 A 控制这两个惩罚的相对权重. 

给定 A, 对所有二次可微函数 S 最小化 (?a(S), 这是变分法的一种应用.结果是 
三次光滑样条 S A (ar). 该函数在每个区间[^,^ +1 ](* = 1,--,«-1)上都是三次多项 
式，且这些多项式在每个 A 处二次连续可微地逐条粘在一起.尽管这在实际中通 
常并不可取，但光滑样条也可定义在数据边界以外的区域.这种情况下，光滑函数 
的外插部分是线性的. 

结果证明三次样条是线性光滑函数， 银 h = SY. 文献 [280] 淸楚地给出该结 
果，而 [124, 506j 中包含了有效的计算方法.其他关于光滑样条有用的参考文献包 
括 [143, 164, 245, 551]. 

S 的第 i 行包括权重 5 n ,- -,5 in , m 11.8 描述了它们与： ri 之间的关系（在 
11.3 节讨论).这种权重类似于核函数并不总取正值的核光滑,但这种情况下当以不 
同点为中心时核函数不会保持同一形状. 

例 11.6 (简单数据，续）图 11.7 显示了对例 11.1 中的数据使用交叉验证得到的 
入= 0.066 时的样条光滑.该结果中的曲线与直接用手画出的非常相似. □ 



预测变貴 

图 11.7 使用由交叉验证选得的 A = 0.066 的三次光滑样条 
曲线（实线 } 及潜在的真实曲线（虚线） 


惩罚的选择 

光滑样条依赖于光滑参数 A, 该参数和邻域大小的关系不像以前讨论过的光滑 
函数那样直接.我们已经注意到， A 控制着偏差-方差的折中.当 A — 00时， S A 趋 









11.3 线性光滑函数的比较 


K 合都依赖于一个光滑矩阵其行确定在响应值局部平均 
滑函数比较 s 有代表性的行是理解不同技巧间区别的有用 
权 重依赖于光滑参数. 

E 得比较分散,而不是只在少数几> 
比较，有必要在不同技巧使用的各 f 
自由度数，对线性夕 
数 

4 


则. 每个拟雀 
对不同光滑团 

当然，在 s 有代表性的行中的权1 
相应的 A 值使得 S 的行中权重分配捐 
较髙的权重.因此要想进行公平的比较，3 

找一种共同的联系.比较的共同基础是光滑的等价自由度数，对线性夕 
单地可定义其为 df=tr{5}. 几种其他的定义及对非线性光滑函数 
对固定的自由度来说， S 行中的元素为间距力 j 
数.如果把 S 行中权重对预测变 i 值作图，我们可把该结果看成是等 
与核光滑中明确使用的权重是类似的.图 11.8 对具有7 

核.显示的核是针对105个排序的预测变置值中的第： 

子布在左边，有69个以两倍的密度等距地分布在右边. 

能是偏斜的,这依赖于力的间距.而且核不必处处为正.图 
价核在某些区域就賦予了负的权重.尽管没在图中显示,但核的形状和数据边界附 
近的点明显不同.对这种点一般接近边界时权重增加，而远离边界时权重下降. 


比较了等价核 
个等距地分布 



預测变置 


动平均 （CSRM)、 对称邻域的移动直线 （RL)、 局部 
(K) 及三次光滑样条 （SS). 内点（用垂直线 表示） 的光滑权 i 
所有的105个而值在水平轴上用短划线 表示： 它们在两 


度是左边的两倍 


11.4 非线性光滑函数 
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把 (11.31) 中的权 Ki(xj) 替换为 *f +1) i^(Zj) 就得到新的局部加权 拟合. 对每个 i 
生成的估计给出 Y} t+1) . 畎认情况下， t = 3以后过程终止 [98,99]. 

例 11.7 (简单数据，续）图 11.9 显示了例 11.1 中的数据的 loess 光滑，其中 fc = 30 
由交叉验证得到.结果和移动直线光滑非常相似. 



ni •变 • 


图 11.9 使用交叉验证得到的 fc = 30的 loess 光滑曲线（实线）及潜在的真实曲线（虚线） 








观测的数据估计该曲线.曲线在图形的右边波动厉害,但这些波动可通过适当小跨 
度的光滑比较好地识别出来，因为数据的变异性非常小.在左边，曲线非常光滑，但 
数据的方差大得多.从而在该区域需要大跨度来充分地光滑受干扰的数据.因此 
在一个区域需要小跨度来最小化偏差，而在另一区域需要大跨度来控制方差.超光 
清[180,183】旨在解决这种 问题. 口 




图 11.11 这些具有非常数方差且波动的频率和振幅都在变化的二元数据用多数固定 
跨度光滑将拟合得非常糟糕.真实的 E{y|x} 用实线表示 

超光滑方法首先用 m 个不同的時度，记为 h u …， hm， 计算 m 个不同的光消， 
记为 A ⑻，…， S m (*). 对 m = 3建议用跨度 /n = 0.05n,/i 2 = 0.2n,h 3 = 0.5n. 每 
个光滑应该在数据的整个范围上计算.为简单起见，用移动直线光滑生成 ^(x), j = 
1，2,3.图 11.12 显示了这三个光滑 • 
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预测变量 


图 11.12 超光滑使用的三个初始的固定窗宽光滑.窗宽分别是 0.05n (虚 线)， 0.2n (点线） 
和 0.5n (实线).数据点的颜色减弱以使光滑看得更清楚 

接下来,定义 pAp) 为第 j 个光滑在点0；处表现的度量， j = 1，…， m. 理想 
情况下，我们想根据 E { 5 (y 4 - 5f(x i ))|X = x i } 来评价在点而的表现，其中 3 是 
惩罚大偏差的对称函数， sf\ Xi ) 是用去掉:的交叉验证数据集估计的在而的第 





3 个光滑.当然该期望值是未知的,所以根据局部平均的范例,我们用 

= {giYi- sf( Xi ))) (11-34) 

估计它,其中 r 为某固定跨度光滑.为实施 [iso] 中的建议，令 r = s 2 且〆 2) = 

图 11.13 对3种不同的光滑给出了光滑的绝对交叉验证残差图中的 
曲线代表 p{h it Xi),j = 1,2,3. 每个光滑中使用的数据分别来自于跨度为 0.05n (虚 
线)，0.2«(点线）和 0.5n (实线）的光滑的残差，但每个绝对残差集用 0.2n 的跨度进 
行光滑以生成图中所示的曲线. 



H 测变置 

图 11.13 p{h Jt Xi),j = 1( 点线)， 2( 虚线）和 3( 实线). 

对每个 j, 曲线是绝对交叉验证残差的光滑 

在每个 而， 可用 = 1,2,3) 来评价 3 个光滑的表现.用心表示灼处 
这些跨度中最好的一个，即 h u h 2 ，h 3 中给出最小州⑹的某个特定的跨度.图 
11.14 对我们的例子画出了 &对巧的图.最好的跨度变化剧烈，即使是对临近的 
因此接下来图 11.14 中的数据通过固定跨度光滑进行过滤来估计作为 z 函数的 
最优跨度.用 MaO 表示该光滑.图 11.14 也画出了 h(x). 



现在对任何给定的 a： 我们有原始数据和最优跨度的概念 可用： 即 剩下 
的就是建立最终总的光滑.在此可能用到的几种策略中， [180] 推荐设 s(xi) 等于 






4- (1!4 )(叫） 和㈤ (Si) 间的线性内插,其中在试过的 m 个固定跨度中， h-{xi) & 
小于 h( Xi ) 的最大跨度，且 /i+(x 4 ) 是大于 h( Xi ) 的最小跨度.因此 










换句话说，有可能画出光滑曲线使其完全位于没有这种节点的逐点区域内，或者甚 

至是在该点有相反节点的区域内.类似地,假设所有的光滑都有同样的曲线形状，且 

线性拟合明显较差.如果置信带较宽或曲线不太苛刻的话,有可能描出一个线性拟 
合使其完全位于置信带内.这种情况下，逐点置信带不能表达重要的推断信 息：即 
应该拒绝线性拟合. 

例 11.9 (把光滑和原横型比较）对真实条件均值函数为 E{r|a:}=x 2 的一些数 
据，图 11.16 解释了逐点置信带的缺点.移动直线光滑的光滑跨度通过交叉验证选 
择，且逐点95%置信带由图中阴影区域表示.不幸的是，原模型 E{Y\x} = 0完全 
位于逐点置信带内部.下面我们介绍另外一种能令人信服地拒绝原模型的方法.图 
11.16 也表明，置信带在数据的边界附近进行了适当的加宽，以便在有较少邻域观 
测的这些区域内反应增加的光滑的不确定性. 口 





图 11.16 来自 E{y|x> = X 2 的一些数据的移动直线光滑，其中踌度由交叉验证选择. 

阴•区域表示文中描述的逐点95%置信带.注意直线 y = 0完全包含在置 
信带内部 

逐点置信带不能获得正确的联合覆盖率，这可以通过事后检验 （post hoc) 调整 
进行修正.把普通的逐点置信带记为的 《)+ 疗㈤)，其中 £(*) 和疗⑻ 
表 示在: T 点处上逐点置信带和下逐点置信带离 50c) 有多远.于是通过寻找至少包 
含全部 (l-a)100%bootstrap 曲线的置信带 (S(*) - «L(*), 1(*) + w£/(a:)) 中最小的 
w 可以使置信带变宽，其中 （1 -W100% 是期望的置信水平.尽管该方法可以提髙 
联合覆盖率,但它并不会改变置信带的形状. 

逐点置信带不能正确地表示 bootstrap 置信集的形状，这不能归咎于置信带逐 
点的本质；更确切地说，这是因为试图把 n 维置信集降为二维图像所产生的.即使 
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使用具有正确联合覆盖率的带宽，同样的问題依然存在.基于这个原因，添加属于 
联合置信集的多条光清曲线可能更加合理,而不用试图去画集合本身的 边界. 下面 
我们给出另一种适合线性光滑的 bootstrap 方法. 

假设响应变量有常方差.在具有该方差的估计量中， Hastie 和 Tibshirani [280] 


建议 


RSSa ⑹ 

n-2tr{5}+tr{ < SSr r }' 


(11-36) 


y = (S A -s) T 


是渐进枢轴的，因此其分布粗略地与真实的潜在曲线独立.像上面那样对残差进行 
bootstrap 抽样，每次计算 bootstrap 拟合向童 S' 相应的值为 













一般二元数据 



X、 X、 


图 11.18 左边面板显示的数据是分散在如下给定的以时间为参数的曲线周围， ( x ( r ), 
y { r )) = ((1 - C 0 BT ) C 08 T ，(1 -coer)8inT), 其中 T e [0,3 jt /2], 该曲线用实 
线表示.点线表示 MXi 的五阶多项式回归的结果，虚线表示 X ,对 X 2 
的五阶多项式回归的 结果. 右边面板显示的是这些数据的主曲线（实线）以 
及真实曲线（点线).它们是几乎重叠的 


这种问题中随意把一个变量标为预测变量’把另一个变量标为响应变量是达不 
到预期目标的.例如，图 11.18 左边的面板显示了由普通的五阶多项式回归得到的 
两个拟合.每条线都是通过最小化一组残差而得到的，这些残差平行于响应轴且度 
















数据进行 光滑. 从交叉验证选的 2fc+ 1 (1 < fc 彡 11) 中选一个跨度.具有相同跨度的 
移动中位数光滑有很大不同吗？ 

按照下面描述的用问题 11.1 中的数据来研究核 光滑： 

(a) 用正态核光滑对数据进行 光滑. 使用交叉验证选择核的最优标准偏差. 

(b) 定义对称三角分布为 


= < (®-M + 

l (M + ft- 


当卜 Ml > A, 

H + h )/ a 2 , 当 

x)/o 2 , 当 $ a ; < 弘 + k 


该分布的标准差为 a/V6. 用对称三角核光滑对数据进行光滑.用交叉验证对第一 
种情形使用的同样的标准差进行搜索并选出最优值. 

⑷令 

f ( x , n , h ) = c(l + coB{2n2log{|z| + l}})exp{-« 3 /2>, 

其中 2 = (*-〆)//»，且 c 为常数.画出该密度函数.该密度的标准差大约为 0.90fc. 
对数据使用该核进行核光滑.用交 叉舱证 对前面使用0! 

选出最优值. 

(d) 比较用这三种核产生的 光滑. 比较它们在最优跨度的(： 

身.对核光滑来说，对核和誇度的相对重要性给出说明？ 

用问埋 11.1 的数据按照下面的描述研究移动直线和移动多项式 光滑： 

：；滑对败据进行 光滑. 从交叉验证选的 2fc+l(l< 


fc < 11) 中选一个跨度_ 

对3阶和5阶移动局部多项式光滑重复该 过程； 每次在 fc 合适的范围内用交叉验 

证选择最优跨度.（提 示： 你可能需要对 


宏择臟跨度.（提 示： 

S 度要尽可能地降低多项式的次数 .） 

,三次和五次）的质 ft 和特点 
I■关系吗？ 


近较大的 K 度 i 

' 对这三种光滑（局部线性,三次和 
' 多项式的阶数和最优時度之间看」 
对这三个 CVRSS 图做评价. 

5的主页上提供了火星大气的温度 
卜太空 船用无线电掩星技术 测量的 


升高而降低. 

(a) 把气温作为半径的函数分别用： 

每个程序说明所选的跨度是合理的. 


压力轮麻图; 
ft 的 [540]. 气温- 

I光滑样条、 loess , 


I数据，这是2003与 
一般会随着行 星中』 


年由火星全球探测 


及至少一种其他的技术进行光滑•对 







可能包含参数和非参的模型成分. 

重新生成图 11.8 (提 示： 样条光滑的核可用合适的响应数据向量由 
拟合反向工程地得到). 

(a) 对第二个最小预测值的光滑生成类似于图 11.8 的图.将其与第 


任何软件< 


显示的压力差 

161个观测.图 11.19 中的嗓声 
产生这些数据的潜在物理冲击波是光滑的.这些数据可从本 


(a) 对第二个最小预测值的 i 

(b) 对不闻的 au 和 A, 从图形上I 
图 11.19 显示了在强力空气爆炸《 

在爆炸前后的这段时间有 
感器和记录设备的 误差； i 
书的主页上得到. 

(a) 对这些数据构造一个移动直线光滑，跨度由观察选择. 

(b) 对 * € {3,5,7,11,15,20,30,50} 作出 CVRSSn (知）对 * 的图并做 评论. 

(c) 对这些数据用任何你想用的光滑和跨度生成最令人满意的光滑.说明你为什么选 
择它. 

(d) 对这些数据进行光滑以及誇度选择中的困难进行评价. 



时间⑷ 


图 11.19 问« 11.6 中空气爆炸压力差别的数据 
对问題 11.6 中的数据及你最軎欢的线性光滑方法，分别用 11.5 节给出的每种方法对光 
滑构造置信带，并进行讨论.（使用样条光滑是非常有越的 .） 





第 12 章多元光滑方法 

12.1 预测-响应数据 


多元预测-响应光滑方法对观测 (*<,») 拟合光滑的曲面，其中叫 是有 p 个预 
测变量的向量， yi 是相应的响应值.数值 yi ,...,y n 看作是随机变量 K ，…，的 
观测，其中 K 的分布依赖于第 t 个预测变量的向量. 

第11章讨论的许多二元光滑方法都可推广到几个预测变量的情形.移动直 

线可用移动平面代替.一元核可用多元核代替.样条光清的一个推广是薄板样条 

[245,3821. 除了实际执行这些方法时重大的复杂性外,在使用多个预渕变量时光滑 
问题的本质也有基本的变化. 

雄數的祸根是指高维空间是广阔的且数据点没有几个近邻.当应用到多元密 
度估计时 10.4.1 节讨论了同样的问题.考虑体积为+1>的 p 维单位球面. 
假设几个 p 维预测变量点均匀地分布在半径为4的球内.在一维慵况下，有25%的 









方法.特别地， Kriging 方法比许多这里考虑的一般光滑有更原则性的推断基础•我 
们在此不再深入讨论该方法,但读者可参考关于空间统计学的书籍，如 [110,254]. 
12.1.1 可加模型 


简单线性回归基于模型 E{y|*} = 0 o + fi lX . 二元预测-响应数据的非参光滑将 
其推广为 E{F|x} = s(x), 其中 s 为某光滑函数. g 在我们试图类推到有 P 个预测 
变量的 情形. 多元回归使用模型 E{y|*} = A ，+ ±0 kX k , 其中； r = (*!,••• ,*p) T . 
对光滑的推广是可加模型 

EKy|aj}=a + ^5 fc (x fc ), (12.1) 

其中办 是第 fc 个预测变量的光滑函数.因此,总棋型由对平均响应具有可加影响 
的一元效应构成. 

拟合这种模型依赖于关系 

Sk(x k ) = E{Y-a~Y l （12.2) 

其中: Tfc 是 * 的第 A 个 成分. 假设希望在4处估计办且假设在该4处观测了 
第 fc 个预测变1：的许多重复值，进一步假设除私外所有的勺 （j / fc) 都已知•那 
么 (12.2) 式右边的期望值可用与指标 i 相应的 Yi - a - D 8 ^) 值的平均来估 










其中 


(12.4) 


且 smoother*) 表示通过对预测变量的第 fc 个坐标值，即 a 
元素并求在 ar ifc 的光滑值所得到的向量. 

(4) 增加 * 并转入第3步 • 

当变化都不大时算法终止——也许是当 


. s ( t )) T ( sr >_ g ( t )) /E ( s (o) T s (o 


非常小时. 

要理解为什么该算法管用，回忆在给定矩阵 A 和常数向童 b 后解2的线性系 
统 = 6的 Gauss-Seidel 算法 （2.2.4 节). Gauss-Seidel 程序用初值 z 0 进行初始 
化.然后，在给定其他成分的当前值后依次解 * 的每个成分.该过程一直迭代到收 
敛为止. 

假设只用线性光滑来拟合可加模型,且令 S* 为第 fc 个光滑成分的 n x n 光滑 
阵.那么后退拟合箅法解由 * fc = 5 fc (y- ESi) 给定的方程组.用矩阵形式写出 
该方程组为 


它具有形式 Ar = b, 其中;8 = (Si,l 2 , •• - ,5 p ) T = a. 注意到& = iiy, 其中 d 是 
对角线上为矩阵 5 fc 的分块对角矩阵.由于后退拟合算法作为单独的块依次更新每 
个向:■:‘故更正式地应称为分块 Gauss-Seidel 算法.迭代的后退拟合算法更受欢 
迎,因为它比直接求 A 逆的方法更快速. 

现在我们转向后退拟合算法的收敛性及解的唯一性问题.这里回顾一下类似 





空间线性相关，那么存在 e 2fc 使得 f = 0. 在此情况下， A 7 = 0,其中 
7= (7 i ,7 2 , ••- ,y p ) r , 因此不存在唯一 » fc ( = iL 问题 12.1). 

该问題更加完整的讨论见 Hastie and Tibshirani [280], 从中可得到如下结果. 
假设 P 个光滑是线性的，且每个馬为特征值在[0,1】的对称 矩阵. 于是 Ay = 0当 
且仅当存在线性相关的 7fc GZ fc) 且它经过第 fc 个未变化的光滑.此时,有很多解 
满足 AS = ylY 且根据初值的选择,后退拟合收敛到其中的一个.否则，后退拟合 
收敛到唯一解. 

允许模型的可加成分为多元的且对不同的成分允许使用不同的光滑方法，这可 
以进一步提高可加模型的灵 活性. 例如，假设有7个预测变量 ,a: 7 ，其中町 
是水平取的离散 变量. 那么估计 E{y|x} 的加法模型可用后退拟合去拟 
合： 

6 + & iil + 1(®2) + p(*s) + <(*4,xb) + /(®6,*r). (12.6) 


其中瓦对X:的每个水平允许单独可加的效应， s(x 2 ) 是对勿的样条光滑， ^(x 3 ) 
是对: c 3 的三次多项式回归,〖(私邡）是 12.1.4 节中递归分块的回归树,/(郎蚵）是 


二元核光滑.按这种方式对几个预测变童进行分组提供了 < 

中的粗糖分块. 

例 12.1 (挪威纸）考虑来自播威哈尔登某纸厂的一些数据 [9]. I 
的度置，有 2 个预测 变量. （这里的和叼分别相当于作者原文中的 le-Y^Xy 
和知).图 12.1 的左边面板显示的是用没有交互项的普通线性模型拟合的晌应曲 
面.右边面板显示的是对同样数据拟合的可加棋型.估计的知见图 12.2. 显然& 


iauss-Seidel 算法执行 
[9]. 响应是纸中瑕疵 


对响应有非线性 效应； 在这种意义下可加棋型是对线性回归拟合的一种改进.口 



12.1.2 广义可加横型 

线性回归模型可按几种方式进行推广.上面我们已经把线性预测变量用光滑 
的非线性函数替代.对线性回归的不同推广属于广义线性模型发展的方向 [379]. 



















(1) 在 f = 0 初始化算法.对 fc = 1，…， p， 令占⑼= p(y)，4 0) ( ) = 0. 这也 

初始化了与每个观测相应的可加预测变量值#^ g 4 0) (^)及拟合值 

妒”， (0) ). 

(2) 对 i = 1,…， p, 构造调整的响应值 

⑻对 i=l, . ,71, 构造相应的权重 

(，‘ ))广 :陶 

(4) 用 12.1.1 节中后退拟合算法的加权版本去估计新的可加预测 4 t+1) - 在这 
-步中，对调整的响应值 2 f +1) 用权重# +1> 拟合形如 (12.7) 的加权可加模型， 
可得= 1,…， n;fc = 1,…， p. 下面还会详细描述,该步也可计算新的 

+1) 和 Af +1) - 

(5) 计算形如 

EECr 0 ^)- »^M) 2 /tt (把 M 2 mm 

的收敛准则，且当其较小时停止迭代，否則,转入第2步. 

要回到标准的广义线性模型，唯一需要变换的是把第4步中的光滑用加权最小二 
乘替换 • 

第4步中的加权可加模型的拟合要求加权的光滑方法.对线性光滑来说，引入 

权重的一种方法是对每个 i 用 wi t+ 1 ) 乘以 S 第 i 列中的元素.然后对每行标准化 

使其求和为 1. 还有些其他更自然的方法对线性光滑（如样条光滑）和非线性光滑 
进行加权.关于加权光滑和局部得分的进一步讨论请参考 [280,485]. 

与可加模型一样， GAM 中的线性预测变暈不必只包含同种类型的一元光滑. 






12.2 中药初 ® 用 5 
m (y* = 0) 和顶部 
的响应数据 


12.1.3 与可加模型有关的其他方法 

广义可加模型不是推广可加模型的唯一途径.其他一些方法对预测变量或响 
应做变换以便对数据提供更有效的模型.下面我们描述4种这样的 方法. 

1. 投影寻琮田归 

可加模型产生由 P 个可加曲面构成的节点，每个曲面沿一个坐标轴有非线性 
轮麻而在正交方向上为常值.这有助于模型的解释，因为每个非线性光滑反应一个 
勺可加效应.但是,这也限制了拟合对单个预测变量不具有可加贡献的更 
5和交互效应的 能力. 投影寻琮曰归通过允许效应为预测变量一元线性 
穿函数从而排除了这一限制 [184,331]. 


预测变量的可 
一般的曲面和 
投影的光滑里 







其中每项 aj 1 ® 是预测向量: r = (X!,... ,x p ) T 的一维 投影. 因此每个办具有由外 
沿叫方向决定的轮廓，而在所有其他正交方向上保持常数.在投影寻踪方法中，对 
fc = 1，…， M 估计灿及投影向量叫以得到最优 拟合. 对充分大的 M, (12.12) 中 
的表达式可近似为预测变量的任意连续函数 [140,331]. 

要拟合这种模型,必须选择投影数 M. 当 M > 1时,模型包含不同线性组合 
ajx 的几个光滑函数.因此结果可能很难解释，尽管模型对预测很有用 .M 的选择 
是与在多元回归模型中选择各项类似的一个模型选择问题，因此类似的推理应该也 
成立.一种方法是首先拟合一个较小 M 的模型，然后重复地添加最有效的下一项 
并重新拟合.从而可产生一列模型,直到没有进一步的额外项可以大大改善拟合为 
止. 

对给定的 M, 拟合 (12.12) 可用下列算法来实现. 

(1) 从 m = 0 开始，并令 d = f. 

(2) 增加 m. 对观测 i 定义当前工作残差为 



其中当 m = 1时求和 为零. 这些当前的残差用来拟合第 m 个投影. 

(3) 对任何 p 维向1： a 及光滑 s m ， 定义拟合优度度童为 



(4) 对选择的光滑类型，关于 a 最大化 Q ( a ) 得到 和 Sr „ •如果 m = M 则 
停止,否则转入第2步. 

例 12.3 (挪威纸，续）我们转向例 12.1 中挪威纸的数据•图 12.5 显示了对 M = 2 
用投影寻踪回归拟合的响应曲面.对每个投影使用了超光滑 （11.4.2 节).拟合曲面 
显示出预测变量间的某些交互效应，而这些效应在图 12.1 中的两个模型中都没有 
被抓住.可加模型对这些预测变量并非完全适合.图 12.5 中的粗线显示了二元预 
测数据投影的两个线性方向.第一个投影方向，记为 ajx , 与任何一个坐标轴的平 
行方向都差得很远.这使两个預测变量的交互效应拟合得比较好.第二个投影几乎 







图 12.6 对娜烕纸败据用投影寻踪回归棋型拟合的光滑函 数奴. 当前残差，即成分拟合 
的光滑加上总残差,用点表示并对每个投影作图， k = l,2 

除预测-响应光滑外，投影寻踪的想法也应用到很多其他邻域，包括多元响应 
数据的光滑 [9] 及密度估计 [180]. 另一种方法，称为多元自适应回归样条 (MARS), 
与投影寻踪回归、样条光滑 （12.1.5 节）及回归树 （12.1.4 节第1部分）等都有联 
系. MARS 对某些数据集可能表现非常好，但近来的模拟结果发现对髙维数据很值 
得期待的结果不多 [19]. 

2. 神经网络 

神经网络对连续响应或离 散响应 都是一种非线性建模方法，且生成回归模型或 
分类模型 [44,45,281,457], 对连续响应 F 及预测变量: r, 一类神经网络模型,称作 
前馈网络，可写为 

S(^) = A)+E An/» + 知)， (12-15) 

其中汍，7你 m = 1,…， M 要从数据去 估计. 我们可把 f(alx + 7m )(m = 




标准差. 

(2) 用沪)(抝值作为响应且 4 t+1) (Xi*) 值作为预测变量对可加模型进行拟合， 
生成可加预测函数 4 t+1) 的更新估计， k = l ， …， p . 12.1.1 节中的后退拟合算法可 
用来拟合该模型. 

(3) 通过在V；(看作预测变量）上光滑 f： 4* +1) (知)(看作响应）的值来估计 

*=i 

⑷通过除以 ^( Yi ) 值的样本标准差对5< ,+1) 重新调整刻度.该步是必要 
的，因为否则不管数据怎么样，很平凡地，令和 ts { k +1) 都为零函数就得到 
零 残差. * =1 2 

⑸根据某相对收敛准则，如 果溫 [备㈣⑹一 E 4* +1> (如)] 2 己经收敛了， 
则停止迭代.，则，增加 i 并转入第 2%. 

最大化和 g ( Y ) 之间的相关性等价于在 var{ 5 (K)} = l 的限制条件 








下关于 9 和 {外} 最小化 E{[g(y) - £«*(^)] 2 }-对 p = 1，该目标关于 x 和 r 
是对 称的： 如果这两个变量是可交换?^那么结果是同一个常数. 

ACE 没有给出直接建立 E{Y\X} 和预测变量之间联系的拟合模型成分，这影 

响了模型的预测.因此 ACE 与我们讨论过的其他预测-响应光滑有很大的不同，因 

为它放弃估计回归函数的 想法， 而是给出了相关分析.因此， ACE 可以得到令人意 

外的结果，尤其是当变量之间相关性较弱时.关于这种问题以及拟合算法的收敛性 
质的讨论,请参考文献 [58,74,280]. 

4. 可加性及方差平稳化 

依赖于响应变换的另一种不同的可加模型是可加性及方差平穗化 (AVAS) [535] _ 
模型与 (12.16) 式完全一样,只是 s 限制为严格单调且对某常数 C* 有 

var|p(K)|^«*(x fc )J =C (12.17) 

拟合该模型需要使用下面的迭代算法. 

(1) 初始化算法：令 f = 0且 g^(Y i ) = (Y i - Y)/& y , 其中扣为1；值的样本 
标准差 • 

(2) 初始化预测函 数：对 g^Yi) 与预测数据拟合可加模型，得到 Sf, * = 
1，…， p， 这与 ACE 做法一样. 

(3) 记当前的均值函数为 a(o = 要估计方差平稳变换，首先必须 

估计给定 A (t ) = «时 9 W (Y) 的条件:？4函数.该函数 V<*)( U ) 通过将当前的对数 
平方残差对 u 进行光滑并将结果取指数进行估计. 

⑷给定州(《)，计算相应的方差平稳变换 麵= y>(*) ㈦ -Wdti. 该积 
分可通过第5章的数值方法去实现. 

(5) 更新并标准化响应变换 ：定义 g^(y) = [^(g^(y))- 俨) ]/〜•,， 其中 
多⑴和分别表示 ㊇(妒收)）值的样本均值和样本标准差. 

⑹更新预测函 数：对 g^ +1 \Yi) 与预测数据拟合可加模型，得到4* +1) , k = 
1，…， p, 这与 ACE 做法一样. 

⑺根据某相对收敛准则，如果益卜(* +1 )(切-£ 4 t+1> ( 知)] 2 已经收敛了， 
则停止迭代,否则,增加 * 并转入第 ft 





















图 12.7 例 12.4 中预测 IBI 的树拟合.根节点是树的顶部节点，父节点是用•符号 
表示的其他节点，而终埔节点是 M，... 瓜 当所示准则为真时沿父节点 
的左支走,为假时沿右支走 


一开始假设响应变量是连续的.那么树型光滑一般称为迭代分类四归. 12.1.4 
节第3部分将讨论分类响应的预测 • 

考虑预测-响应数据，其中叫是与响应V；相应的 P 个预测变邏:的向量， i = 
1,…， n. 为简单起见，假设 p 个预测变量都是连续的.令9表示要拟合的树中终端 
节点的个数. 

树型预测是逐条常数的.如果第 i 个观测的预测变童值落入第 j 个终端节点, 
那么第 i 个预测的响应等于常 数匀. 因此树型光滑为 

s(*i) = (12.18) 


该模型用一种划分过程去拟合,且该过程自适应地把预测变量空间分成超矩形，每 
个超矩形对应一个终端节点.一旦划分完成，就令~等子落入第 j 个终端节点观 



节点变成终端节点，形成原树的一个子树.任何分支本身可用一个基于不同预测变 
量和（或）不同准则的分支来替换.下面描述拟合一棵树使用的划分过程. 


最简单的情况下，假设 g = 2. 然后我们试图用一个平行轴边界把納分成两 
个超矩形.选择可通过剖分坐标 ce{l,--, P } 和一个剖分点或阈值 t e »来刻画. 
那么两个终端节点是 M = {叫：私< *} 和 M :用次和 * 分别 




其中 巧 是落入第 j 个终端节点的观测数. 

对连续的预测变量和排序的离散预測变量，可按照这种方式直接定义剖分.对 
未排序分类变量的处理有所不同.假设这种变量的每个观测可以取几个类别中的一 
个.所有这种类别的集合肯定可分成两个子集.幸运的是，我们可以不必考虑所有 

可能的分法.首先，按每类中平均响应的顺序对各类进行排序.然后，把这些排序的 

类别看成是排序的离散预测变量的观测.这一策略允许最优的剖分 [59j. 也有些自 

然的方法处理具有某些缺失预测变量值的观测. 最后 ，选择预测变量的变换通常不 

是问题：树型模型对预测变量的单调变换是不变的，因为在多数软件包中，剖分点 

是由预测变量的秩决定的. 

要找到 g = 2个终端节点的最好的树,我们试图关于 c 和 f 最小化残差平方和 

RSS(c,t) = E E( y ‘ — 〜) 2 , (12-20) 


其中~ Yi/nj. 注意到名是用 C 和 t 的值定义的且只有当集合各中的成员 
发生变化 B? RSS(c,«) 才改变.因此最小化 (12.20) 是一个组合优化问通.对每个坐 
标，我们至多需要试 n - 1个剖分，而且如果坐标的预测变量值中有结的话次数会 
更少.因此最多搜索 p(n - 1) 次树就可找到最小的 RSS(c,t). 

树的穷尽搜索是可行的. 

现在假设 <7 = 3. 第一个剖分坐标和剖分点把分成两 


0.当 g = 2 时寻找最仿 
5个超矩形.然后再用舞 


二个剖分坐标和剖分点将其中一个超矩形分成两个部分，这个剖分坐标和剖分点仅 
在这个超矩形内适用.结果就得到三个终端节点.对第一次剖分至多需做 p(n-l) 
次选择.对任何不同于第一次剖分使用的坐标进行第二次剖分时，对每个选择的第 
—次可能剖分至多存在 - 1) 次选择.对第一次剖分使用的同一个坐标进行第二 























含的观测数都不多于某预先给定的最小数或其残差平方误差不超过根节点平方误 
差的某预先给定的百 分比. 在该全树中终端节点的个数可能大大超过 9 . 接下来，终 
端节点再从底部往上按照不使残差平方和大大增加的方式序贯地进行合并.这种 
方法的一种实现称作成本-复杂性修曹算法 [59,457]. 最后的树是全树的一棵子树， 




















后，现在我们可对所有数据将全树修剪到由6决定的子树. 

对一系列 a 值寻找最优树的有效算法（见上面第2步）是可得的 [59,4571 .实 
际上，对应《序列值的一组最优树是嵌套的,较小的树对应较大的《值,而且通过 
从底部往上将终端节点序贯地进行重组可访问到序列中所有的成员.对该交叉验 
证策略提出了各种扩展，包括上面方法的一种变体，即从几乎达到最小交叉验证平 
方和的那些树中选择最简单的树 [533]. 

例 12.6 (河流监控，续）让我们回到例 12.4 中河流生态学的例子.通过进行剖分 
直到每个终端节点少于10个观测或残差平方误差少于根节点残差平方误差的1% 
为止，可以得到这些数据的全树.该过程得到具有53个终端节点的全树.图 12.10 
显示了作为终端节点个数函数的总的交叉验证残差平方误差.该图是用10•折交叉 
验证（V = 10) 得到的.可以从底部对全树进行修剪,把最没用的终端节点重新合 
并直到达到 Ha(T) 的最小值为止.注意，《值和树的大小之间的对应关系意 味着： 
只需考虑有限个《值即可，因此将 /^(r) 对 g (r) 作图比对《作图更直接.具有 
5个终端节点的树得到了最小的交叉驗证平 方和： 实际上,这就是图 12.7 中所示的 
树. 





图 12.10 例 12.6 中交叉验证残差平方和对节点大小的图. 

顶部的水平线表示成本-复杂性参数 a 

在该例中， 最优 a 的选择，因此也即最终树的选择，随数据的不同随机划分而 
不同.一般最优树有3 〜 13个终端节点.这种不确定性加强了树型模型结构的潜在 
不稳定性,尤其是对信号不强的数据集. 口 






















12.2 —般多元数据 303 


Bayes 的树型方法 [94,131]， 树型方法的医学应用也尤为普遍,这也许是因为作为疾 
病诊断的工具,二元决策树解释和应用起来都非常简单 [59,95]. 

12.2 一般多元数据 

最后，我们考虑几乎位于低维流形（如曲线或曲面）上的髙维数据.对这种数 
据，可能没有预测变量和响应变量这种明显概念上的区别.然而，我们可能对估计 
变量之间的光滑关系比较感兴趣.本节中，我们给出一种光滑多元数据的方法，称 
为主曲线.其他研究变量之间关系的方法,如关联规则和聚类分析，参见 [281]. 

主曲线 

主曲线是一类专门对一般 P 维多元数据集进行的一维非参汇总.不太严谨地 
说，主曲线上的每个点都是投影到曲线上该点的所有数据的平均. 11.6 节已开始促 
使我们研究主曲线.图 11.18 中的数据不适合用预测-响应光滑,然而使光滑的概念 
适合于一般多元数据可得到如图 11.18 右边面板所示的非常好的拟合.现在我们更 
具体地描述主曲线的概念及其估计 [279]. 相关软件包括 [277,323,546]. 

1. 定义和动机 

一般的多元数据可能位于中迂回连续的一维曲线附近.这就是我们要估计 
的曲线.下面我们采用曲线的时间-速度参数化来适应最一般的情形. 

我们可把 SRp 中的一维曲线记为 /( t ) = (A( t )， … ,/ p (r)), 其中 r 位于刊和 
Tl 之间.这里 T 可用来表示 p 维空间中沿一维曲线的距离.曲线/的弧长为 
£ II /切 II dT ■，其中 

„離 ㈣ + ... + ( 啊 . 

如果对所有 r e hnj 有II f{r) ||= 1,那么沿曲线任何两点 r a 和 n 之间的弧 
长为 |r 0 -n|. 此时称/有单 位速 度麥數化.设想一只小虫沿曲线以速度1向前 
走，或以速度 -1 向后走（向前或向后的指定是任意的)，这样设想常常是很有帮助 
的.如此小虫在两点之间走动所花费的时间量就相当于弧长，正负号相当于所取的 
方向.对所有 T, 满足 || f\r) ||> 0的任何光滑曲线都可重参数化到单位速度.如果 
单位-速度曲线的坐标函数是光滑的,那么/本身也是光滑的. 

我们感兴趣的要估计的曲线类型是光滑没有交叉且波动不太大的曲线.具体来 
说，我们假设/是舻中光滑的单位-速度曲线，其参数化到闭区间 [rcn ] 上使得 
对所有的 r， 当 t e [T^nl 且 f* 时，有/⑷/ /(r), 而且假设/在胪的任何闭 
球内有有限 长度. 









我们定义 / 为主曲线,如果对所有 r* €卜 0 ,71]有 /(r*) = E {X|r / (X)=r*}. 
这一要求有时称作自我一致性.图 12.11 解释了这一想法,即在某 r 正交于曲线的 
点的分布的均值一定等于该点曲线本身的值.左边面梹中，在，处沿正交于/的 


轴描出了一个分布.该分布的均值为 /(r*). 注意到对捕球分布，主成分直线就是主 
曲线.主成分可参见 [402]. 



图 12.11 解释主曲线定义及其估计的两个面板.左边面板中，曲线/在某 t _ 处与正交 
于/的轴相交.该轴上描出了条件密度曲线；如果/是主曲线,那么该条件密 
度的均值一定等于 /(r_). 右边面板中画出了 f 附近 的一个邻域. 边界内所有 
点都投影到〆附近的/上.这些点的样本均值应该是左边面板中真实条件密 
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一种合理的选择是令/ (0) (r) = X + ar , 其中是从数据中估计的第一个线性主成 
分.算法如下进行. 

(1) 光滑数据的第 fc 个坐标.具体来说,对 fc = 1，- - ，p, 用具有跨度 W) 的标准 
二元预测-响应光 滑将不 对进行光滑.点到？ (<) 的投影得到的预测 
变量为 r ^( Xi) y i = 1，…， 《• 械为 X ik . 结果是> (<+1> ,它可作为 E { X \ rW ( x )} 
的估计.这实现了对几乎投影到主曲线同一点的所有点进行局部平均的散点光滑策 
略. 

(2) 在 f +1 \ Xi ) (i = l , -, n ) 之间进行内插，并计算 y t MXi ) 作为与 
/ (t+l) 间的距离.注意,某些不可能投影到与以前迭代中完全不同的部分. 

(3) 令等于变换到单位速度的这等于调节7^ 叫(不） 
使得每个都等于沿多边形曲线到达的总距离. 

(4) 计算 > 的收敛性，如果可能则 停止； 否则,增加 t 并转入第1步.可根据总 
误差 t ^\ Xi - / (t+1) (r(*+D( X< ))|| 构造一个相对的收敛准则. 

的结果是逐段线性多项式曲线作为主曲线的估计. 

主曲线的概念可推广到多元响应中.为此，与上面类似地可定义主曲面.曲面 
用向量 r 进行参数化,并将数据点投影到曲面上.任何投影到 T* 附近曲面上的点 
都控制 f 处的局部光滑. 

例 12.7 (二元数据的主曲线）图 12.12 解释了拟合主曲线迭代过程的几个步骤. 
















图 12.12 这些面板解释了主曲线迭代拟合的过程.详见例 12.7 


这种路度选择方法令人担忧,因为初始的跨度选择显然可以影响算法收敛时曲 
线的形状.如果收敛以后再对跨度进行交叉轮证,那么对这类错误纠正/就为时已 
晚了.然而，该算法对许多例子表现都很好,而普通光滑技巧将会得到灾难性的后 
果. 


12.1 对如 (12.5) 式定义的先光滑矩阵 S k Rn 维向量 7*. * = 表示由经 

过办而保持不变的向置（即 满足& « = «的向量）所张成的 空间. 证明= 0( 其 
中7 = (7 i 7 2 - -Y P ) T ), 当且仅当对所有*，％ GI* 且 f： % = 0. 


KI 精确测 

IN 常 有用. - 
旨记录 

? 12.2】 

目的是应用 i 

用自己瑚 

加模型.本 


个受试者记录了由水下称重法测得的体脂 

测量（表 12.2). 

S 这些棚比较和对I 

,发雖退拟合算法, 

S 的结果与多元回归I 


.耗时.用标准 W 量对体脂进行精确預测的模型在多数 
1251位男性的13项简单身体测量来预测体脂.对每 
得的体脂百分比、年龄、体重、身高及10项人体周长 

I节见 [289,311]. 这些数据可从本书主页上 下载. 本题 

比几种多元光滑方法. 


用自己选择的光滑,3 

加模型.将可加模型 f 

用如下5种方法对这 

型 (MLR); (2) 可加 


112.1.1 节的描述拟合可 


的结贼行比较 • 

卸软# (1) 标准的多天 
可加模型 （AM), •⑶投影寻踪回归 （PPR); ⑷交替条 





























中左下角的面板那样. 

推广得到迭代算法,使其收敛到估计的 
件见 [277,323,546). 
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